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INTRODUCTION 


Jusqu’au début des années 1980, l’économétrie s’est développée à un 
rythme relativement lent. Elle avait beaucoup de mal à se libérer du 
paradigme statistique classique. Mais avec la poussée fulgurante de 
l'informatique, l’économétrie à connu un essor fort appréciable ces 
vingt dernières années. Que l’on pense simplement à la multiplication 
effrénée des modèles économétriques non linéaires, des modèles de 
volatilité et des nouvelles techniques d’estimation comme le GMM ou 
la méthode des moments simulés, pour ne nommer que quelques 
nouveaux champs de l’économétrie contemporaine. 


Mais ce qui est encore plus saisissant, c’est l’avancée au pas de 
charge de l’économétrie dans le domaine de la théorie financière. En 
effet, la théorie des produits dérivés, qui prend sa source au début des 
années 1970, fait de plus en plus appel aux modèles économétriques 
de volatilité, tels les modèles GARCH, et à la méthode du GMM pour 
estimer les paramètres des équations différentielles stochastiques qui 
servent à la détermination des prix des options, entres autres. L’éco- 
nométrie a également permis au modèle du CAPM, bien connu en 
théorie financière, de s’affranchir de son cadre statique. On peut main- 
tenant parler de bêtas variables dans le temps et la transposition de 
l'approche GARCH au CAPM à permis de le situer dans un cadre 
multivarié. La finance corporative emprunte également de plus en plus 
à l’économétrie. Ainsi, l’analyse des investissements des entreprises 
dans un contexte d’incertitude donne lieu à la formulation d’équations 
différentielles stochastiques dont l’estimation des paramètres exige le 
recours à l’économétrie, entre autres à la méthode économétrique du 


GMM. 


© 2001 — Presses de l’Université du Québec 


Édifice Le Delta IL, 2875, boul. Laurier, bureau 450, Québec, Québec G1V 2M2 * Tél. : (418) 657-4399 - www.puq.ca 
Tiré : Traité d'économétrie financière, François-Éric Racicot et Raymond Théoret, ISBN 2-7605-1123-5 + D1123N 


Tous droits de reproduction, de traduction ou d’adaptation réservés 


2 Traité d’économétrie financière 


L’incursion de l’économétrie dans le domaine de la finance a 
donné lieu à l’apparition d’une nouvelle discipline : l’économétrie 
financière. L’économètre financier, en plus de maîtriser l’économétrie 
moderne, doit disposer de bases solides en théorie financière de façon 
à pouvoir opérer une symbiose des deux disciplines que sont l’écono- 
métrie et la finance. La formation de l’économètre financier est donc 
très exigeante. Le présent Traité d’économétrie financière s'attaque à 
cette discipline complexe en visant à exposer au lecteur les fonde- 
ments de l’économétrie financière. Les applications des méthodes 
économétriques présentées dans notre Traité seront donc tirées de la 
théorie financière moderne. 


Il n'existe pas à notre avis de manuel rédigé en français qui se soit 
donné notre objectif. Du fait de l'importance de plus en plus grande 
de la finance empirique, notre Traité vient combler une grave lacune 
qui existe encore aujourd’hui au sein des outils pédagogiques à la 
disposition des étudiants de la finance et de l’économie financière. I] 
vise la clientèle des étudiants de troisième année du baccalauréat 
spécialisé en finance ou en économie financière et des étudiants des 
divers programmes de MBA, de maîtrise en finance appliquée ou de 
DESS en finance. Il s'adresse également au spécialiste de la finance — 
analyste financier, gestionnaire de portefeuille, ingénieur financier — 
qui souhaite effectuer un tour d’horizon complet et rigoureux de 
l’économétrie financière moderne. 


Tout en se voulant une introduction à l’économétrie financière 
moderne, notre Traité d’économétrie financière vise également à appro- 
fondir certains domaines-clefs de cette discipline, parfois jugés com- 
plexes par l’étudiant, comme les modèles GARCH et le GMM. Dans 
son souci de rigueur, notre Traité fournit très souvent au lecteur les 
preuves des diverses formules qui y apparaissent. Dans son souci 
pédagogique, notre Traité renferme également des chapitres ou sec- 
tions consacrés à des rappels de la statistique ou du calcul matriciel. 


Voici un bref survol de notre Traité d’économétrie financière. Le 
chapitre 1 porte sur des rappels de notions statistiques de base qui 
sont utilisées par la suite dans notre manuel. On y expose, entre 
autres, une version étoffée de la méthode d’estimation du maximum 
de vraisemblance. Les chapitres 2 et 3 sont les chapitres classiques de 
tout manuel d’économétrie. Ils présentent le modèle linéaire à deux 
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Introduction 3 


variables et le modèle linéaire général. Les chapitres 4 et 5 ont trait à 
des variations sur les modèles linéaire et non linéaire. Y sont pré- 
sentés, entre autres : le modèle des moindres carrés non linéaires et le 
modèle Box-Cox; les tests J et RESET; le test de Chow; une intro- 
duction à la théorie asymptotique ; les tests LM, LR et de Wald ; une 
introduction à la théorie des variables instrumentales et au phéno- 
mène de la multicollinéarité. 


Le chapitre 6 se penche sur les méthodes numériques utilisées en 
économétrie. On y aborde la simulation de Monte Carlo, la technique 
dite du bootstrapping et celle du kernel. On y montre incidemment 
comment évaluer le prix d’une option asiatique à partir d’une simula- 
tion de Monte Carlo. Les chapitres 7 et 8 s’attardent aux problèmes 
économétriques classiques de l’hétéroscédasticité et de l’autocorréla- 
tion des erreurs résiduelles. Le chapitre 9 concerne la théorie 
économétrique des séries temporelles. Y font figure les processus 
stochastiques, les modèles ARMA et ARIMA, les prévisions à l’aide de 
séries chronologiques, les tests de racines unitaires et le phénomène 
de la cointégration. 


Le chapitre 10 dirige son collimateur sur un problème statistique 
important dans le domaine des séries financières : l’hétéroscédasticité 
conditionnelle. Une attention particulière est accordée aux modèles 
ARCH, ARCH-M, GARCH, EGARCH et TARCH. La prévision 
des séries chronologiques dans un contexte d’hétéroscédasticité con- 
ditionnelle y est étudiée. Finalement, les applications que contient ce 
chapitre concernent le modèle financier du CAPM. On y montre 
entres autres comment estimer le modèle du CAPM dans le cadre 
d’un modèle GARCH multivarié. 


Finalement, le chapitre 11 s’attaque à la méthode des moments 
généralisés, dont l’acronyme est: GMM. Nous y démontrons comment 
cette technique d’estimation intègre les modèles classiques d’estima- 
tion: modèle des moindres carrés linéaires, des doubles moindres 
carrés et du maximum de vraisemblance. Comme application de la 
méthode du GMM, nous estimons les paramètres du modèle stochas- 
tique de taux d’intérêt de Schaefer et Schwartz dans un contexte 
canadien. 
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4 Traité d’économétrie financière 


L'économétrie financière est une discipline captivante. À en juger 
par l’évolution accélérée qu’elle connaît depuis vingt ans, elle est 
appelée à un brillant avenir. Nous espérons que le lecteur partagera, 
au fil de la lecture des chapitres de notre Traité d’économétrie financière, 
notre très vif intérêt pour cette nouvelle discipline. 
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CHAPITRE 


L 


RAPPELS STATISTIQUES" 


Ce chapitre vise à présenter les principaux outils probabilistes et 
statistiques qui sont essentiels à la compréhension de ce Traité d’écono- 
métrie financière. Nous présentons dans un premier temps les notions 
de variables aléatoires et de modèles probabilistes en temps discret et 
continu. Les modèles probabilistes regroupent les principales lois de 
probabilité en temps discret, soit les distributions binômiale et de 
Poisson, et les lois de probabilité en temps continu, soit les lois 
normales univariée et bivariée, le chi-carré, le t de Student, le F de 
Fisher, la loi uniforme. Dans un second temps, nous nous penchons 
sur les moments de certaines distributions et sur le théorème central 
limite. L’estimation de certains de ces moments, entre autres par la 
méthode des moindres carrés ordinaires et celle du maximum de vrai- 
semblance, est abordée. Leurs intervalles de confiance sont calculés. 


1. NOTION DE VARIABLE ALÉATOIRE 


Il existe deux définitions pour une variable aléatoire, l’une heuris- 
tique, l’autre basée sur la théorie de la mesure. Selon la défintion 


1. Les références des chapitres 1 et 2 sont les suivantes: Amemiya, T. (1994), 
Introduction to Statistics and Econometrics, Harvard University Press, Cambridge, 
Massachusetts ; Baillargeon, G. et J. Rainville (1979), Sratistique appliquée, tomes 1 
et 2, 5° édition, Éditions SMG, Trois-Rivières ; Judge, G.G. et al. (1988), Intro- 
duction to the Theory and Practice of Econometrics, 2° édition, Wiley, New York; 
Kendall’s Advanced Theory of Statistics (1999), Arnold, London ; Rao, C.R. (1973), 
Linear Statistical Inference and Its Applications, 2° édition, John Wiley and Sons, 
New York. 
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6 Traité d’économétrie financière 


heuristique, une variable aléatoire est une variable qui prend des 
valeurs suivant une certaine fonction de distribution. Dans sa version 
formelle, une fonction à valeur réelle X(.) définie sur l’espace (Q, f, P) 
est appelée variable aléatoire (ou mesurable dans le langage de la 
théorie de la mesure) si l’ensemble {w : X(w) <x} £ B pour tout x dans 
R où le triplet (Q, GB, P) est appelé espace probabiliste, (Q étant défini 
comme l’espace échantillonnal et B étant l’ensemble de Borel. Un 
ensemble de Borel est une famille de sous-ensembles contenant tous 
les événements de la droite des réels pour lesquels on peut calculer 
une probabilité de réalisation. Formellement, on appelle aussi B une 
o-algèbre. Pour sa part, P est une mesure de probabilité sur f. 
Donc, on peut voir la fonction X(.) comme une application de Q à R: 
A SR. 


On distingue les variables aléatoires continues et discrètes. Par 
exemple, les réalisations de l’indice S&P’s 500 aux Etats-Unis et du 
TSE 300 au Canada font partie des variables aléatoires continues, car 
elles peuvent prendre n’importe quelle valeur dans l’ensemble des réels. 
Les variables dichotomiques font partie de l’ensemble des variables 
aléatoires discrètes. Par exemple, émettre ou ne pas émettre un divi- 
dende est un exemple de variable dichotomique. On donnerait la 
valeur 1 lorsqu'il y a émission de dividende et 0 autrement. 


On distingue également les variables déterministes des variables 
aléatoires. Une variable y*. = f A ), où x. est connu et parfaitement 
contrôlé, est dite déterministe et donc parfaitement prévisible. Par 
exemple, si f(x. )= mx,+b, alors y*, = mx, +b. On peut illustrer 
cette relation par la figure 1.1. 


On observe sur cette figure que pour une valeur donnée de x, la 
valeur de y est automatiquement déterminée. Connaissant la valeur de 
x, on peut donc prévoir parfaitement la valeur de y. Il existe des 
formes beaucoup plus complexes de variables déterministes. Par 
exemple, dans la théorie du chaos déterministe, les formes fonction- 
nelles sont de nature hautement non linéaire, mais elles nous amènent 


2. La notion de fonction de distribution sera définie ultérieurement. 


3. Pour des détails additionnels, voir : Rao, C. (1973), Linear Statistical Inference and 
Its Applications, John Wiley and Sons, New York. 
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à la prévision exacte de certains phénomènes physiques. Tel n’est pas 
le cas pour une variable aléatoire. Une variable définie comme: 
ver a ) +e., où e est une variable aléatoire IID°(0, 6?) y. étant la 
somme d’une fonction non stochastique et d’une composante aléa- 
toire (stochastique) est donc une variable aléatoire. 


FIGURE 1.1 


Y: 


Xe 


La figure 1.2 représente la fonction: y, = b+mx, +e, - y: peut 
prendre plusieurs valeurs pour une valeur donnée de x.. Ceci est dû à 
la présence du terme aléatoire e, dans la fonction de y:. y: n’étant plus 
prévisible parfaitement, mais seulement à l’intérieur d’un intervalle de 
confiance, il s’agit donc d’une variable aléatoire. 


4. Les exemples classiques de fonctions de variables déterministes en physique 
sont: la tent map, la logistic map et le modèle du chaos déterministe de Makey et 
Glass (1977) qui a servi, entre autres, à modéliser la reproduction des cellules 
rouges du sang. À ce sujet, on consultera également : Racicot, F.E. (2000), Notes 
on Nonlinear Dynamics, document de travail, CRG, 16-2000, ESG, UQAM. 


5. ID pour «identiquement et indépendamment distribué ». 
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FIGURE 1.2 


Y: 


2. STATISTIQUES DESCRIPTIVES 


À une variable aléatoire donnée sont associées plusieurs statistiques 
descriptives. Dans ce qui suit, nous analysons les plus utilisées en 
finance empirique. 


2.1. Mesure de la tendance centrale 
d'une variable aléatoire 


Soit une variable aléatoire X et ses réalisations x; € {x1, ..…, xr}. Alors 
la moyenne des réalisations se définit comme suit : 


LE 


Supposons maintenant que l’on ait plusieurs variables aléatoires : 
X; € {X1,..., Xr} où les X; - IID (m, o°), où m est la moyenne de la 
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. 7 . . 7 . . . 
population et s°, sa variance. Alors l’estimateur X est dit sans biais si 


(x) Tu 


L L 


=. Le biais de X se définit comme suit: 


biais(X) = E(X)-u 


D’autres mesures de la tendance centrale sont la médiane et le 
mode. La médiane se définit comme étant la valeur qui sépare l’échan- 
tillon en deux. Si le nombre d’observations est impair, la médiane est 


N+1 


s 


égale à: 


. Pour sa part, le mode est la valeur la plus fréquente 


observée dans un échantillon. Soulignons que la médiane fait figure 
d’estimateur robuste de la tendance centrale en ce sens qu’elle ne 
dépend pas de la normalité d’une distribution, contrairement à la 
moyenne qui, elle, dépend de cette hypothèse. En effet, si la distribu- 
tion échantillonnale diffère de la normale, la moyenne est alors un 
mauvais estimateur de la tendance centrale, ce qui n’est pas le cas de 
la médiane. 


2.2. Mesures de dispersion d'une variable aléatoire 


Nous voulons calculer la variance échantillonnale, mesure de disper- 
sion de cet échantillon, désignée par s?. Pour les réalisations x; de X, 

celle-ci est égale à: 
L _\2 
DE > x) 
DE 

T-1 

Supposons, comme dans le cas précédent, que l’on ait plusieurs 
variables aléatoires : X; € {X1, .…, Xr} où les X; - IID (1, o°), où p est 


la moyenne de la population et s°, sa variance. Alors l’estimateur S? est 
T 


LC -X) 
dit sans biais si: S? = = ++ E(s’)= G ? 
T-1 


6. La preuve de cette formule est donnée à l’annexe de ce chapitre. 
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10 Traité d’économétrie financière 


L’écart-type est désigné par Vs? . Intuitivement, s? peut être vu 
comme une moyenne d’écarts par rapport à la moyenne au carré, le 
carré éliminant les signes négatifs de cette moyenne. Cette statistique 
nous donne l’étendue d’une distribution. Pour un petit écart-type, 
les observations seront concentrées autour de la moyenne alors que 
dans le cas d’un grand écart-type, elles seront plus dispersées. Les 
figures 1.3 et 1.4 illustrent les distributions empiriques associées à un 
petit écart-type et à un grand écart-type. 


FIGURE 1.3 


Nombre d’observations 


FIGURE 1.4 


Nombre d’observations 
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Une autre mesure de la variabilité des réalisations d’une variable 
aléatoire est le coefficient de variation, désigné par CV. Il se définit 
comme suit pour la variable X : 


CV = "X x100 
X 

Si l’on veut comparer la variabilité des réalisations de deux variables 
aléatoires X et Y, on recourt au CV de chacune de ces variables pour 
pallier le problème de l’échelle des mesures. En effet, supposons que 
sx soit égal à 3,6 et sy, à 631,4, on pourrait être porté à croire que Ÿ 
est plus variable que X, la variabilité étant mesurée par l’écart-type. 
T'el n’est pas le cas puisqu'il y a ici un problème d’unité de mesure: la 
variable X est mesurée en pourcentage (p. ex., le taux d’intérêt) et la 
variable Y, en dollars (p. ex., le volume des transactions boursières). 
On peut remédier à ce problème en dégonflant sx et sy par leur 
moyenne respective : x est égal à 8,8 et y à 2915,3. Les coefficients 
respectifs de variation pour X et Y sont de 0,409 et de 0,217. On 
réalise donc après coup que X est plus variable que Y sur la base du 
coefficient de variation même si, a priori, on concluait l'inverse. Comme 
autre exemple, on peut noter que les variables mesurées en millions de 
dollars sont plus volatiles en termes absolus que celles mesurées en 
unités de dollars, ce qui n’est pas le cas sur une base relative, qui 
s'obtient en divisant ces variables par leur moyenne respective. 


2.3. Mesure du degré d'asymétrie et d'aplatissement 
d'une distribution empirique 


2.3.1. Le coefficient d'asymétrie (skewness) 


Ce coefficient mesure le degré d’asymétrie d’une distribution. Il se 
définit comme suit : 


He(x]=[ e)r)és 


où E(.) est l’espérance et V(.), la variance. E, dans les petits échan- 
tillons, est estimé par la moyenne arithmétique des réalisations de la 
variable aléatoire : 
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12 Traité d’économétrie financière 


où ju est estimé par x. 


E (m-1ÿ 


Par ailleurs, on estime 6°? par 6? = El. 


L 


Si — =0, alors la distribution est symétrique, à l’instar de la 
(e] 
normale, qui apparaît à la figure 1.5. 


FIGURE 1.5 


Notons que dans le cas d’une distribution normale, tous les 
moments impairs sont nuls. 


Le 
5° 
la droite, comme le montre la figure 1.6. 


Si > 0, alors la densité de la distribution est concentrée vers 
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FIGURE 1.6 


. H e ; ; 
Si — < 0, alors la densité de la distribution est concentrée vers 


(ey 
la gauche, comme le montre la figure 1.7. 


FIGURE 1.7 


L’intuition ici est que l’on compare les moments empiriques de 
nos données aux moments théoriques d’une distribution qui est la 
distribution normale. 
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14 Traité d’économétrie financière 


2.3.2. Le coefficient d'aplatissement (Kurtosis) 


Comme son nom l’indique, le coefficient d’aplatissement d’une distri- 
bution mesure son degré d’aplatissement. Il est associé à l’épaisseur 
des queues (#ils) de la distribution. On le définit comme suit: 


COS RU CONS 
o (vx) (o2) 


Dans la pratique on estime ce coefficient de la façon suivante. 
L’espérance E est estimée par la moyenne échantillonnale, c’est-à- 
dire: 


2) 
El(x-u) |= ne | 


où pe et o° sont estimés comme ci-devant. 


Si 4 =3,il n’y a pas de biais leptocurtique. On dit alors que la 
distribution est mésocurtique comme c’est le cas pour la distribution 


; ; Liz ; . H 
normale qui sert de point de référence. Par ailleurs, si — > 3, ON Est 


confronté au cas d’une distribution leptocurtique. Plus communé- 
ment, on dit qu’une telle distribution présente des queues épaisses, 
toujours en rapport avec les extrémités d’une distribution normale, 
comme on peut le constater à la figure 1.8. 


' . H a Sho : 
Finalement, si — <3, on parle alors de distribution platicur- 
(o] 
tique. Plus communément, on dit qu’une telle distribution présente 
des queues minces (thin tails), toujours en rapport avec les extrémités 
d’une distribution normale, comme on peut le constater à la figure 1.9. 
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FIGURE 1.8 


Leptocurtique 


(queues épaisses) _ ; 


FIGURE 1.9 


Platicurtique 
(queues minces) 


Si les coefficients estimés d’asymétrie et d’aplatissement sont 
respectivement près de 0 et de 3 pour une distribution donnée, on 
pourrait conclure qu’on est en présence d’une distribution gaussienne 
(normale). Certains logiciels très connus comme EViews, SAS et 
RATS sont déjà préprogrammés pour le calcul de ces coefficients. 
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Comme c’est toujours le cas en statistique, un seul coup d’œil 
graphique ne suffit pas à mesurer les déviations de ces coefficients par 
rapport à la normale. Comme à l’accoutumée, il faut développer un 
test pour juger du caractère significatif de ces déviations. Le test de 
Jarque et Bera (1984) est conçu à cette fin. Ce test est défini sur la 
somme des coefficients d’asymétrie et d’aplatissement élevés au carré. 
Plus précisément, le test de Jarque et Bera est basé sur la statistique 
suivante : 


JB= — AS? + L(KUR 3) 2x2 (2) 


où AS est le coefficient d’asymétrie et KUR, le coefficient de kurtosis. 


Le test d’hypothèses est le suivant. L'hypothèse nulle HO est que 
la distribution est normale alors que l’hypothèse alternative H1 est 
que la distribution n’est pas normale. La règle consiste à rejeter HO si 
JB est plus grand que x? avec deux degrés de liberté au seuil de 
signification habituel de 5 % ou si la p-value associée à la statistique JB 
est inférieure à 0,05. Une mise en garde vis-à-vis l’utilisation de ce test 
s'impose cependant. Ce test est asymptotique comme l’indique le 
symbole = dans la formule de JB. Ce test n’est donc pas exact parce 
que l’on ne connaît pas la distribution de JB dans de petits échantil- 
lons. On ne connaît sa distribution que dans les grands échantillons’. 
On peut effectuer directement ce test de normalité dans le logiciel 
EViews. 


7. Si l’on régressait les y sur X, on obtiendrait le vecteur ê = y - XB. Pour tester la 
normalité des erreurs résiduelles, on calcule les inputs de la formule de JB 


La, Le Le 
Fo si 


—, Ce test fait partie de la caté- 
T 


gorie des tests LM. Notons que l’on pourrait aussi le voir comme un test de Wald. 


comme suit: [3 = 
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2.4. Test de Kolmogorov-Smirnovë (K-S) 


Ce test est utilisé pour comparer une distribution empirique à une 
distribution donnée. Ce test peut notamment servir de test de norma- 
lité. La statistique reliée au test de K-S, désignée par D, se calcule 
comme suit : 


D = _max SX (x) = P(x)] 


où SN(x) est un échantillon de données et P(x) est une cdf” connue. La 
représentation graphique des variables du test apparaît à la figure 1.10. 


FIGURE 1.10 


cumulative probability distribution 


8. Cette section s’inspire du livre suivant: Press, W.H. et 41. (1989), Nurnerical 
Recipes : The Art of Scientific Computing (FORTRAN Version), Cambridge Univer- 
sity Press, Cambridge (reproduit avec la permission de l’éditeur). 


9. cdf est abréviation de cumulative distribution function. 
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Sur cette figure, D est la statistique de K-S. La distribution 
empirique des valeurs de x, soit le graphique de SxX(x), est comparée à 
une distribution théorique où la densité de probabilité cumulée est 
représentée par P(x). Sx(x) est une fonction par paliers qui augmente 
d’un montant identique pour chaque observation mesurée. La valeur 
de D représente la plus grande distance entre ces deux distributions 
cumulées, soit Su(x) et P(x). Pour le cas où il y a deux fonctions de 
distribution cumulatives d’observations différentes, Sx1(x) et Sx2(x), la 
statistique K-S s’écrit: 


D= max 
—00<€ x <00 


Sxi(x)-Sx2 (x) 


Les hypothèses à tester sont les suivantes. HO: les deux distribu- 
tions sont identiques; H1: les deux distributions sont différentes. 
Pour ce faire, il faut calculer le caractère significatif de D (p-value), 


c’est-à-dire : Prob (D > valeur observée) = Q,. [IN D), où 


Qxs(À) _ 2) (1) e 2" et où Q,,(0)=1et Qxs(c) =0.N 
représente le ombre d’observations. 


Dans le cas où l’on compare deux distributions, le niveau de 
signification se calcule comme suit: Prob (D > valeur observée) = 


NN 


. À remarquer que ce test est asympototique 


mais en pratique, on peut considérer que N = 20 est un seuil tolérable, 
d’autant plus si le degré de conservatisme est important (seuil de 
signification de 0,01 ou moins). 


3. MODÈLES PROBABILISTES 


3.1. Lois de probabilité discrètes univariées 


3.1.1. La fonction de distribution et de répartition 


Rappelons d’abord les statistiques descriptives associées aux lois de 
probabilité discrètes univariées. La distribution d’une variable aléa- 
toire discrète qui rend compte de ses probabilités de réalisation peut 
être représentée par la figure en bâtonnets 1.11. 
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FIGURE 1.11 Distribution discrète de X 


£G) = pCX = x) 
f(x) 
e 
fo) 
f(x) 
X1 X2 X3 x 


La probabilité que X soit plus petit ou égal à x est représentée par: 


PIX <= x}= FE (x)= YE(x), où F(.) est la fonction de répartition (pro- 
X<x 
babilité cumulative). La représentation de la probabilité cumulative 


apparaît à la figure 1.12. 


Notons sur cette figure que les probabilités se cumulent à mesure 
que les x; augmentent puisque la fonction F(x;) est la probabilité de 
réalisation jusqu’à x; Par exemple F(x3) = f(x)+f(x)+ f(x) =: 
Voici quelques propriétés de ces distributions. 


1) xs F(x) F(y) 


> 
iii) P(x; SXS3x; ] = F(x;)-F(xi; ) Par exemple, 
P(x; SX <x:)l=Pra)-Flx) 
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iv) P{x; <X)=1-P(X<x;) 


v) P(x; <X<x)=f(x) 


FIGURE 1.12 Fonction de répartition 


F(x) 
F(x;) = 1 
F(&) 
F(x;) e—_— 
x % x L 


3.1.2. Espérance et variance en discret 
L'espérance 


L’espérance mathématique pour une variable aléatoire discrète se 
définit comme suit : 


E(X)= D f(x) ro )=P(X-x) 


Plus généralement, E[g(X)| = >. g(x;) f(x; ). Par exemple, dans 


le cas précédent: g{x;) = xi. L’espérance mathématique est donc la 
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moyenne pondérée des réalisations de la variable aléatoire X sur la 
population, les facteurs de pondération étant les probabilités respec- 
tives de ces réalisations. 


Les propriétés de l’opérateur espérance sont les suivantes : 


iï) Pour n variables aléatoires X1, X2, …, X,, 


n n 
E Dax; — Y œE(x;) où ci est une constante. 
i=1 il 


Par exemple, E(cX; +c,X; ) : cE(X, )+ cE(X; 1 


Par ailleurs, la moyenne d’une suite de variables aléatoires X1, 


Xr, … Xn où Xi- NID'{uo’), est de: X=_i—, 
n 
LE(X) 
E(X) = - = 
n n 


La variance 


La variance d’une variable aléatoire discrète se définit comme suit. 
v{x)=E)(x-E(x)) = Léfni)(x: -E(x)) 
= Yu) x-[E(X) =E(x2)-[E(X)f 


Plus généralement, la variance s’écrit : E[g(X)| = D elx ) f(xi) 


où g{x;)=(x; -E(X)). 


Les propriétés de l’opérateur variance sont les suivantes : 


10. NID: variables normales indépendamment distribuées. 
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Pour n variables aléatoires X1, X>, …, X,, on a: 


1 ÿ ax; = Dci V(xi)+2) Ÿ cic, cov(xX;,X;) ViÆ) 
î î i 
où les c; sont des constantes. 
li) Sicest une constante — V(c) = 0 


iii) V(a + cX) = cV(X) où a et c sont des constantes. 


Par exemple, supposons que X; - NID (u,0?). Alors, 


x Lv(xi) > °° : 
V| si =-i = 


n > 6 


2 2 1 — 
n n n n n 


3.1.3. Distribution binômiale 


La loi binômiale se définit comme suit: 
bliu,pl= PK =1)= Crpi(1-p), i=0,..,n, où0<p<l 


: n n! : 
ét où C?= =————. Cette fonction permet de calculer la 


1) il(n-i)! 
probabilité associée à i succès parmi n expériences. La distribution 
binômiale sert entre autres à modéliser des expériences du type succès- 
échec, chaque expérience étant indépendante l’une de l’autre. L’exem- 
ple classique de ce type d’expérience est le lancer répété d’une pièce 
de monnaie. C’est le jeu communément appelé pile ou face. Si on la 
lance 3 fois, alors la probabilité d’avoir pile deux fois est de: 
2 32 
P(K=2}= | = s - où p, soit la probabilité 
21(3-2)!(2 2 8 
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d’avoir pile, est égale à 42. Il est à noter que l’on pourrait également 
utiliser cette formule pour calculer la probabilité d’avoir au moins i 
succès parmi n expériences. 


La distribution binômiale présente les propriétés suivantes. Son 
espérance E(X) = np. Sa variance est de : V(X) = np(1 = p). 


Voici maintenant un exemple d'utilisation de la loi binômiale en 
finance, soit celui de l’évaluation d’une option européennel!. Cet 
exemple est celui du modèle binômial de Cox, Ross et Rubinstein 
(1979). Considérons d’abord l’évaluation d’une option d’achat. En 
vertu de la loi binômiale, la prime de cette option s’évalue par la 
formule suivante : 


il 
5 


ER” [Max(s, - X,0)] ser 
i=0 


, ni , 2 
p'(1-p) Max[Sçu'd° "—X,0 
i 
où r est le taux sans risque ; t, la durée en années de l’option; n, le 


nombre de périodes; So, la valeur du prix de l’action au temps 0; u, le 
multiple de hausse du prix de l’action; d, le multiple de baisse ; et X, 


le prix d’exercice. Les u et d se calculent comme suit: u =e°*"/"; 


= Ît/ , 2 1 
d=e °""". Dans ces relations, s représente la volatilité annuelle du 
rendement de l’action sous-jacente à l’option. Les p sont ici calculés 


dans un univers neutre au risque et s’obtiennent comme suit: 
£È 
éd 
Per 
u—d 

Expliquons plus précisément la formule du prix de l’option 
d'achat. Selon celle-ci, le prix de cette option est la valeur actualisée 
de l’espérance des cash-flows à l’échéance de cette option. Cette 
espérance, notée E* pour la distinguer de l’espérance classique, est 


dérivée dans un univers sans risque. Cette formule montre encore une 
fois que le prix de tout titre est la valeur actualisée de ses cash-flows. 


11. L'option européenne, par opposition à l’option américaine, ne peut être exercée 
avant son échéance. 
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La version binômiale du prix de l’option précise le calcul de lPespé- 
rance. On note que les facteurs de pondération des cash-flows sont 


ceux de la binômiale, soit: x pi(i-p)"" 
i 


Illustrons la procédure numérique du calcul du prix de l’option 
lorsque l’on recourt à la loi binômiale. Il faut alors construire un arbre 
binômial de l’évolution du prix de l’action puis du prix de l’option. 
Nous nous en tenons ici à l’arbre des prix de l’action puisque celui des 
prix de l’option obéit au même principe. Voici comment se présente 
larbre binômial du prix de l’action si l’on suppose trois périodes d’un 
mois. 


u” S 
w So 
uso 
ÿ << ne 
dS 
d S 
t=0 t= 1/12 t=2/12 t= 3/12 


On laisse au lecteur le soin de remplir les cases manquantes. 
Pour plus de détails, on consultera: Racicot, F.-E. et R. Théoret 
(2000). 


12. Racicot, F.É. et R. Théoret (2000), op. cit. 
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3.1.4. La distribution de Poisson 


La distribution de Poisson n’est rien d’autre que la limite de la distribu- 
tion binômiale sous certaines conditions. Elle se formule comme suit : 


1 —nxp 
limb(i;n,p) = DRE = P*{inxp) = P(X = i) 


Nc 1! 
Si on pose À=nxp, on a: 


he * 


i! 


PK=r=Pt(sile 


L’espérance de cette distribution est de : E(X) = À et sa variance 
est de: V(X) = À. L’espérance de la distribution de Poisson est donc 
égale à la variance. 


Il est à noter que la loi de Poisson peut servir d’approximation à 
la loi binômiale. La loi de Poisson peut donc servir à modéliser des 
expériences du type succès-échec si les conditions suivantes sont réa- 
lisées : p £ 10 % et np < 5. Par exemple, on veut calculer la probabilité 
(p) d’obtenir exactement deux pièces défectueuses dans un procédé de 
production qui maintient en moyenne 4% de pièces défectueuses 
lorsque la taille de l'échantillon est n=100. Notons que les conditions 
d’approximation sont ici respectées : À = 4, donc plus petit que la borne 
supérieure de 5, et p est égal à 4%, donc plus petit que la borne 
supérieure de 10 %. On obtient le résultat suivant à l’aide de la binô- 
miale : 


P(X = 2) = b(2; 100, 0,04) = D J0+) (1- 0,04)" =0,1449 


L’approximation de cette probabilité par la loi de Poisson est de : 


2 44 
P(X=2)=P*(2;4)= .. 0,1465 


On voit que la loi de Poisson se rapproche beaucoup de la loi 
binômiale. 
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La distribution de Poisson a donné lieu à de multiples applica- 
tions. Donnons quelques exemples. Hausman et 41. (1984) utilisent 
la loi de Poisson pour modéliser la distribution des brevets accordés 
aux entreprises pour une année. Leur distribution de Poisson pour la 
variable y; s’écrit comme suit: 


(a+BR;)'e (#88) 
j 


P(y; =;j)=f(jlR;)= 


où À, =a+f$pR; = E(y; IR;). Dans cette équation, R; représente les 
dépenses en recherche et développement d’une entreprise représenta- 
tive et j, le nombre de brevets accordés à cette entreprise dans une 
année. Selon cette équation, plus une entreprise investit en recherche, 
c’est-à-dire plus R est important, plus l’espérance des brevets qui lui 
sont accordés est élevée. Une autre application, cette fois-ci finan- 
cière, a été formulée par Greene (1995)! et a trait aux cartes de crédit. 
La variable qui dans son modèle obéit à une loi de Poisson est le 
nombre de défauts enregistrés dans l’histoire du crédit d’un échan- 
tillon de clients pour une catégorie de cartes de crédit. Cette variable 
est en fait la plus importante pour déterminer si une demande d’em- 
prunt ou de carte de crédit sera acceptée. La variable dépendante est 
une variable discrète de score qui mesure le nombre de défauts obser- 
vés durant l’histoire du crédit d’un client. Par exemple, si un client n’a 
jamais fait défaut, son score est nul. S’il a enregistré deux défauts de 
paiement, son score est de 2. Et ainsi de suite. La probabilité que y; 
prenne la valeur j est la suivante : 


Encore une fois, l’espérance de y; est À; qui peut être représentée 
par une forme fonctionnelle linéaire, non linéaire ou tout autre forme 
pertinente. 


13. Hausman, J., B. Hall et Z. Griliches (1984), « Economic Models for Count Data 
with an Application to the Patents R&D Relationship », Econometrica, 52, p. 909- 
938. 


14. Greene, W.A. (1995), Sample Selection in the Poisson Regression Model, docu- 
ment de travail , #EC-95-6, Stern School of Business. 
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3.2. Lois de probabilité continues univariées 
et concepts bivariés 


La loi normale ou gaussienne est traditionnellement la plus utilisée en 
économétrie. Sa fonction de densité (pdf)!° s’écrit comme suit : 


f)= re É 


La variable X suit une loi normale centrée réduite désignée par: 
X - N(u, 02). Les propriétés de la pdf normale sont les suivantes : 


iï) La fonction f(x) >0, VxEe (—cs,00).16 


ii) [_ f(x)dx = F(ce) = 1.F représente ici la edf!” d’une variable 


X quelconque. 


iii) F(-ce) = 0 
5) 4()- #0) 


v) P(x <X< x+dx) = f(x)dx 
vi) P(X = x) = [f(xjdx = F(x)-F(x) = 0. 


vii) P(x; <X<x; ] = P'E(x)ax = F(x;)-F(xi). 


Cette relation est a égale à: 
Pl SX<s)=P(x <X<x) 
=Plx, SX<x)=P(x <X<x.) 


15. pdf est l’abréviation de probability density function. 
16. Pour simplifier la notation, nous omettons l’indice i à la variable x. 


17. cdf est l’abréviation de cumulative density function et représente la probabilité 
suivante : P(X < x). 
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A la suite de ces relations, plusieurs remarques s’imposent. 


a) Lorsqu'une variable est continue, les probabilités ne se cal- 
culent pas par référence à un point mais bien par rapport à 
une densité. Ainsi, la probabilité que la variable aléatoire X 
prenne une valeur ponctuelle est égale à 0 alors que ce n’était 
pas le cas pour les variables discrètes. 


b) Si la variable X est définie par : X - N{u, o?), alors, E(X) = 


et V(X) = 02. La statistique, définie comme: Z = , Suit 
(e] 
une loi normale centrée réduite notée N(0,1). L’espérance 


de Z, notée E(2), est de: 


: E(X)- L 
E(z)-E| 24 | - IR uen 
© [e] (e] 


0. 


Par ailleurs, la variance de Z, notée V(Z), est de: 


X 1 
v(2)=vl= vl El v(x)+0=1 
() 6) 6 
1 -# 
c) Le kernel!f gaussien, qui s'écrit: K(z)= e ? ,est une 


2x 


fonction telle que [ K(x)dx=1. Notons qu’il existe 


d’autres kernels statistiques importants : le bipondéré, l’epa- 
nechnikov, le rectangulaire et le triangulaire. Ces kernels 
sont utilisés pour estimer des distributions empiriques à l’inté- 
rieur d’une classe très générale d’estimateurs non paramé- 
triques du type Rosenblatt-Parzen. 


Nous abordons maintenant les définitions de l’espérance et de la 
variance en temps continu. 


18. La définition du kernel est la suivante. Soit une fonction composée f(g(x)). La 
fonction g(x) est le kernel et f, la fonction extérieure. 
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L'espérance 


Soit une variable aléatoire X continue. L’espérance de X se définit 
comme suit : 


Cette intégrale est une intégrale de Riemann habituelle. Par 


co 


ailleurs, si l’on formulait l’intégrale de la façon suivante : ( xdF, ce 


serait alors une intégrale Lebesgue-Stieljes. 


La variance 


La variance de X se définit comme suit: 


v(x)=[" (x-E(X)) {(x)dx 


—00 


Plus généralement: 


Efg(x)]=[" e(x)f(x)dx 
Dans le cas de l’espérance simple, g(x) = x; dans le cas de la 
variance : g(x) = (x = E(X)) . 


À noter qu’en temps continu, les propriétés des opérateurs de 
l’espérance et de la variance sont les mêmes qu’en temps discret. 


Supposons maintenant deux variables aléatoires X et Y. Calcu- 
lons la covariance et la corrélation de ces deux variables en temps 
discret et continu, ce qui nous introduit dans le domaine des concepts 
bivariés. 


La covariance 


La covariance entre X et Ÿ se définit comme suit: 


Cov(X,Y)= E](x É E(X))(Y L E(Y))] 
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En temps discret, cette expression est égale à: 
Cort, v)= EE -B(x))(r-E(v)}r(a,7) 
x y 


Comme dans le cas de l’espérance, il existe une formulation plus géné- 
rale pour la covariance qui la ramène dans le domaine de l’espérance : 


Cov(X,Y)= Y'V'e(x,y)f(x,y) 
x y 


où g(x;y)=(x-E(X))(y -E(Y). 


Par ailleurs, en temps continu, la covariance entre X et Y est 
donnée par: 


Cov(X,Y)= LL scnfey) 
Au plan échantillonnal, la covariance sxy se calcule comme suit: 


n 


D (x -x)(v:-5) 


i=1 


SXY — 


nl 


La figure 1.13 est une représentation graphique de la cova- 
rlance : 


Si les réalisations de X et de Y se distribuent majoritairement 
dans les quadrants I et IIL, alors la covariance entre ces deux variables 
est positive. Si par contre les réalisations de X et de Y se distribuent 
majoritairement dans les quadrants IT et IV, la covariance entre ces 
deux variables est négative. Finalement, si les réalisations de ces deux 
variables sont distribuées également entre ces quadrants, la covariance 
est nulle. 
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FIGURE 1.13 


ro) L (+) 


III (+) IV (— 


x 


Corrélation de Pearson 


La notion de covariance donne lieu à celle de la corrélation de Pearson 
p, soit: 


(x -x)(yi -) 
ô= "= il 
S S n n 
X°9Y Y (x x) Y(v: 5) 
i=1 i=l 


La corrélation nous indique s’il existe un lien linéaire entre deux 
variables. Elle corrige la covariance de l’influence des unités de mesure 
des variables X et Y. Plus la valeur absolue de rho, soit Il, se 
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rapproche de 1, plus le lien linéaire entre les deux variables est impor- 
tant. Certes, si p est égal à 0, il n’y a pas de lien linéaire. Un exemple 
théorique montre que si le lien linéaire est parfait, le coefficient de 
corrélation est égal à 1. Soit Y = a + bX. On peut alors écrire: 


Cov(X, Y)=E[(x-E(X)}(Y -E(Y))] 
= E[(X-E(X)}(a +bX -E(a +bx))] 
= DE[X-E(X)] =bV(X) 
Par ailleurs on a: 


V(Y)= b°V(X) 
Cela implique que: 


bV(X) bV(X) 


: PER VER 


Le même exercice peut être refait pour obtenir p = -1 en suppo- 
sant que Ÿ = à — bX. Il est important de souligner que la corrélation ne 
mesure que le lien linéaire entre deux variables et que si la corrélation 
se rapproche de 0, cela n'implique pas qu’il n’existe pas d’autres 
formes de liens entre ces deux variables. À cet effet, il existe un 
coefficient de corrélation non linéaire pour capter le lien non linéaire 
entre deux variables. Ce coefficient sera discuté plus en profondeur à 
l'intérieur du chapitre ayant trait aux méthodes de régression non 
linéaires. 


Précisons une règle de calcul de la covariance pour les cas con- 
tinu et discret. Supposons des constantes a, b, c et d, et deux variables 
aléatoires X et Y, alors on peut écrire: 


Cov(aX+bY,cX+dY}=acV(X)+bdV(Y)+{ad+bc)Cov(X,Y) 
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La distribution uniforme (continue) 


La variable aléatoire U est uniformément distribuée dans l’intervalle 
[a,b] désigné par U - U (a,b) si elle obéit à la pdf suivante: 


1 
f(u)={b-a 
0 autrement 
où u est une réalisation de U. 
Les propriétés de cette distribution sont les suivantes : 


i) L’espérance de U, soit E(U), est égale à: 


a+b 


E(U) = 


La démonstration est la suivante. 


! b 1 CE 
E(U) = fuf(u)du = | Le du = > PE +c 
: % —a —a 
_b?-a?1 (a+b}(b-a)1 a+b 
b-a 2 b—a 2 2 


ii) La variance de U, soit V(U), est égale à: 


(b-a) 


V(U)= e|(U- E(U)) _—. 


du. 


a 


b b 
où E(U?)= [uf(u)du = [ — 
péoeef 


Illustrons la distribution uniforme à partir de l’exemple suivant. 
On suppose que a = 0 et b = 1. On obtient alors la distribution uniforme 
très connue U(0,1). Cette distribution est représentée à la figure 1.14. 
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FIGURE 1.14 


f(u) = . 
b 


Sur la figure 1.14, la région hachurée nous indique la probabilité 
que la variable aléatoire U soit inférieure ou égale à 0,3 ou supérieure 
ou égale à 0,1. 


La cdf de la distribution uniforme se calcule comme suit: 


F(u)=P(U<u)= [rod 


où : 
0 siu<a 
Fu)=1® ©  siacu<b 
b-a 
jl siu>b 


La fonction F(u) apparaît à la figure 1.15. 


Il importe de fournir quelques exemples d’utilisation de la distri- 
bution uniforme : 


a) Génération de nombres aléatoires 


Les programmes informatiques qui servent à calculer des variables qui 
obéissent à la loi normale et à ses dérivées sont basés sur un généra- 
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teur de variables pseudo-aléatoires de loi uniforme. On applique alors 
une transformation Box-Müller pour passer de la loi uniforme à la loi 
normale. 


FIGURE 1.15 


b) Calcul du coefficient de corrélation de Spearman 


Le coefficient de corrélation de Pearson n’est pas robuste, en ce sens 
que lorsque les données dévient de la loi normale, ce coefficient doit 
être utilisé avec circonspection. Un coefficient de corrélation (non 
paramétrique) robuste aux déviations de la normalité est celui de 
Spearman. Il est souhaitable de toujours comparer le coefficient de 
Pearson à celui de Spearman; si le premier dévie significativement 
du second, il serait préférable d’établir des conclusions à partir du 
coefficient de Spearman. 


Pour calculer le coefficient de corrélation non paramétrique de 
Spearman, on doit dans un premier temps transformer les données en 
rang ; pour ce faire, on utilise la distribution uniforme U(a,b). Plus 
précisément, le calcul du coefficient de Spearman s’établit comme suit 
pour deux variables X et Y: 


__ CovfRsS) 


PSpear — HTANTO) 
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L’estimateur de ce coefficient, soit Bspear> Est de : 


_ ÉlR-R(s-5) 
PSpear — = n 
LR. -R À(s-5) 


où R est le rang de X et S, le rang de Y. 


On peut illustrer cette formule par un exemple. Les réalisations 
de X sont les suivantes : 


33 


44 


55 


À partir de ce vecteur, illustrons la transformation de X en rang 
R. Pour obtenir R, on transforme X comme suit et on numérote les 
réalisations. On obtient alors R* : 


24 1 


55 5 
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Par conséquent, x implique le vecteur r suivant: 


33 3 
44 4 


x=|32,3|—r=|2 


24 1 
55 5 
Où F=3= _ = 2: oùn=5. De façon analogue, le vecteur 
s est égal à . : 

3 
1 
s=|4 
2 
5 


Donc, par cette transformation des données, on obtient une 
distribution uniforme. 


Comme le coefficient de Spearman, le coefficient de Kendall + 
est également utilisé dans la pratique comme alternative au coefficient 
de Pearson et se définit comme suit : 


S  # de paires concordantes — # de paires discordantes 


T= = 
S* n 
2 
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L'avantage de Tr sur le coefficient de Spearman est qu’il n’est 
point besoin d’utiliser le rang pour calculer cette statistique. On com- 
pare simplement les grandeurs relatives des combinaisons possibles : 

= _2)! 
N n! n(n 1)(n 2)! 1 


_ 2!(n—2) : 21(n 2)! | oo de paires : (x, yi). 


Il faut noter que l’on n'utilise ici aucune distribution pour effec- 
tuer les comparaisons. En ce sens, le coefficient de Kendall est encore 
moins restrictif que celui de Spearman. 


4. NOTIONS D'INDÉPENDANCE, DE DENSITÉ JOINTE 
ET DE DENSITÉ MARGINALE 


Pour n variables aléatoires X1, X2, ..…., X,, discrètes ou continues, on 
dit que l’on a indépendance entre ces variables si l’on peut écrire la 
densité jointe (continue) des réalisations de ces variables aléatoires 
comme le produit des distributions marginales de ses réalisations. La 
densité jointe de X1, X2 ., X, s'écrit donc: 


és HE (e), de (x,) 


où, par exemple, 


co 00 co 


f( =) =], Jr. ,Xn )dxdx;dx4 …dx, est la densité 


—00—00—00 


marginale de la variable aléatoire continue X,. Dans le cas discret, la 
fonction de distribution marginale s’écrit 


ÉCE)= EUR) Donna. }. 


X2 X3 X4 Xn 


Pour deux variables aléatoires X, et X>, on a comme fonctions de 
distribution marginales : 


fs) ta) () 
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où Le [ex )de si X, et X> sont continues et 


—00 


te) _ D 'f(x,x) si X, et X> sont discrètes. 


X1 


La conséquence de l’indépendance au chapitre de la covariance 
est la suivante. Dans le cas de deux variables aléatoires X; et X, 
l'indépendance implique une covariance nulle : 


Cov(X,,X,)= E](x, =E(X, )(X,-E(X, )) 
=E(X,X,)-E(X, }E(X,)=0 
Ceci implique : 


E(X,X;)=E(X, )E(X;) 


Prouvons maintenant ce résultat, à savoir que la covariance est 
nulle si les deux variables aléatoires sont indépendantes, en utilisant 
les résultats précédents ayant trait à la forme des distributions jointes 
et marginales dans le cas où il y a indépendance entre deux variables 
aléatoires. La preuve est la suivante: 


E[g(X;,X2)| = D f(x,x) g(x1,x) 


X1 X2 


où g{X,,X,)= (x -E(X, (2e -E(X, } pour la covariance. Dans 


ce cas, 


E[g(X:,X2)]= Cov(X:,X;)= El(x; -E(X;)}(X, -E(X, )] 


=) -E(X))(6 -E(R)}f(asx) 


#1 X2 


En vertu de l’indépendance, on a: lo )=0 (ete). 
Alors, 
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| ) ( EE GE Ce -E(X:)}2 (52) 
: Etes Le its] 


= (E(X,)-E(X))(E(R)-E(R))=0 


Expliquons ces dernières équations. Par définition, 


DE (e)x _ E(X;). Par ailleurs, 
X1 


YE(X,)f(x)=E(X)) fm) =E(X;)x1= E(X;), 

X1 Xi 

ce qui démontre la formule. On se rend donc compte que l’indépen- 
dance implique une covariance nulle. Mais l’inverse n’est généra- 
lement pas vrai sauf pour des variables aléatoires normalement 
distribuées. Par exemple, supposons une combinaison non linéaire des 
variables aléatoires X et Y, soit X? + Y? = 1. Leur covariance peut être 
très rapprochée de 0, mais il existe pourtant un lien évident entre ces 
deux variables. 


5. PROBABILITÉS CONDITIONNELLES 
ET DENSITÉS CONDITIONNELLES 


Soit deux variables aléatoires X et Y. La probabilité de X condition- 


pe ED 25) 


nelle à Y s’écrit : f(xly) enr 
P(Y=y) 


f, (y) 


où f,(y) est la distribution marginale de y. Ces égalités sont valables en 
totalité dans le cas discret mais seules les deux premières le sont dans 
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le continu. Pour n variables aléatoires, le principe est le même. Con- 
sidérons par exemple trois variables aléatoires X, Y et Z. La densité 
conditionnelle de Z s’écrit comme suit: 


f(x, y,2) 


f(x,y) 


De cette équation, il découle que la densité jointe peut s’écrire comme 
le produit de densités conditionnelles : 


oye)=hy}f(oy)= (her) h)f 0) 


Si l’on suppose que les variables X, Y et Z sont indépendantes, cette 
dernière équation s’écrit alors comme suit: 


FGoy,2)= f(x) (A7) 


ce qui représente le produit des densités marginales. 


(zx, y)= 


6. THÉORÈME CENTRAL LIMITE (CAS UNIVARIÉ) 


Nous allons maintenant introduire un théorème très important en 
théorie statistique, soit le théorème central limite. Ce théorème justi- 
fie l’utilisation de la loi normale en économétrie. Ce théorème est très 
important parce que beaucoup de concepts économétriques sont basés 
sur lui. Par exemple, en théorie asymptotique, on se sert de ce théo- 
rème pour formuler certains tests statistiques comme le test de Jarque 
et Béra qui, à la limite, suit une distribution x? qui, elle, est une 
normale au carré. Le théorème central limite s’énonce comme suit. 


Si X1, X2, .…, Xh sont des variables aléatoires ID (1, o?) et que 


Lx: X-EX) x- x- 
= 1, alors la statistique Z = C ) _ _. re - 
n VX) © ° 
\n 
dispose d’une pdf qui s’approche de la loi normale centrée et réduite 
N(0,1) à mesure que n tend vers infini. 


X 
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Selon ce théorème, la moyenne de n variables indépendantes qui 
obéissent à une distribution quelconque (en autant que la distribution 
ait une moyenne et une variance) s'approche donc d’une N(0,1) après 
lavoir centrée et réduite sur un échantillon suffisamment grand. Plus 
formellement, ces résultats se formulent comme suit. 


x - 1} 2 
lim P fn ste =— fe? dZ 
nc 6 1/27 © 


Ceci implique que: 


nX, “5 N{Vnu,0?) 
ou, en termes équivalents, 


2 
X, EN nu, 


n 


Il est à souligner qu’il s’agit ici de la convergence en distribution. Il 
existe en effet d’autres modes de convergence, soit la convergence en 
probabilité, en moyenne quadratique et la convergence presque sûre. 
Ces différents types de convergence seront discutés ultérieurement. 


7. LA LOI NORMALE MULTIVARIÉE 


Nous avons présenté précédemment la loi normale univariée qui 
s'applique à une série d’observations sur une seule variable aléatoire. 
Mais il convient de généraliser cette distribution à plusieurs variables 
aléatoires. On parle alors de distribution normale multivariée. La pdf 
multivariée s’écrit comme suit: 


1 1 
| => (eu) ET (ru) 
(2x)2| DE 


Ris 


où x est un vecteur de k variables aléatoires supposées dépendantes, 
est le vecteur de leurs moyennes et X, la matrice variance-covariance. 
La distribution de x s’établit comme suit : x - N(, À). Si les variables 
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aléatoires sont indépendantes, alors Ÿ = o°I, I étant la matrice identité. 


ä n 2k . x Fe 
Sachant que dans ce cas particulier D = 6°, la pdf multivariée s’écrit : 


1 1 
rexpl--(x-u) “(x-u) 
(270° ): 
1! ie) 
= exp| — k : ) =1(x)() f(x) 
i1 GV2T 2 


Par conséquent, la densité jointe est le produit des densités marginales 
dans le cas de variables indépendantes. On retrouve le résultat précé- 
dent, à l’effet qu’une covariance (corrélation) nulle entre des variables 
normalement distribuées donne lieu à l’indépendance statistique. 


Dans le cas bivarié, c’est-à-dire que lorsqu'il n’y a que deux 
variables aléatoires, la pdf s'écrit: 


2 
1 |{x- -u, Vy- - 
(x,y)= exp L X L, X Un y b, F. y by 


216,6, 1-p° 2f1-p?) 6, 6, 5; 5; 


La distribution bivariée est utilisée en finance pour calculer par 
exemple le prix d’options écrites sur deux actifs ou encore dans le 
modèle de Whaley!”, qui consiste à calculer de façon analytique le 
prix d’une option d’achat américaine écrite sur une action versant un 
dividende. 


19. Pour plus de détails, voir : Racicot, F.-É. et R. Théoret (2000) , Traité de gestion 
de portefeuille : titres à revenus fixes et produits dérivés, Presses de l'Université du 
Québec, chapitre 6. 
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8. ESTIMATION DE LA MOYENNE ET DE LA VARIANCE 
DANS UN MODÈLE SIMPLE 


Supposons que la variable aléatoire Y se formule comme suit: 


Y, =B+e;, i=1,..,n 


où e; - ID (0, 0°). B est une constante et Y; est alors une variable 
aléatoire. e; est une variable aléatoire appelée terme d’erreur et suppo- 
sée provenir d’une population de moyenne 0 et de variance o?. Par 
hypothèse, les e; sont supposés indépendants, c’est-à-dire Cov(e:, e;) = 0 
Viz)j. En termes matriciels, on peut réécrire ce modèle comme suit: 


Y =Br+e 
où 
Y, 1 e; 
Y; 1 e) 
Y=| ,t=| | et e= 
Ya nxl 1 nxl En nxl 


Notre objectif est d’estimer la moyenne de Y à partir de ce 


modèle. Comme E(Y;) _ E(B+e; ) =$, il suffit de trouver un 
estimateur de fB pour obtenir un estimateur de la moyenne de Y. Pour 
ce faire, nous recourons à la méthode des moindres carrés ordinaires 
(MCO). Selon cette méthode, il faut minimiser la somme des e; au 
carré pour trouver l’estimateur recherché. 


Nous disposons de n réalisations de Y; notées par yi, i= 1,...,n. 
Le principe des MCO consiste à minimiser la somme suivante : 
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S=Ÿ di 
i=l 


2 . . _— 
où d; = (y L B) est une distance euclidienne. Plus précisément, le 


problème de minimisation est le suivant : 


Mans = Min } di = Min _(v: 8) 
i=l i=l 


On peut développer la sommation comme suit: 


n 


] (y: -8) : » (vi — 2By; +p°) - Y y? BY y, +n$° 
æ il il 


i=1 


1 


où la somme des B? est égale à nB?. Pour obtenir le minimum des, il 
suffit d’égaliser sa dérivée première par rapport à f à 0: 


dS 2 à 
—=0-2Ÿ y, +2nf=0 
dp L 
Il résulte que : 
y y: 
B = i=1 
n 


Donc, par ce problème de minimisation, on a trouvé que l’estimateur 
de B, soit B, est la moyenne arithmétique de l’échantillon. Cet esti- 


n 
LY 
mateur est valable pour tout échantillon, c’est-à-dire que: B = =. 


n 
L’espérance de B est de: 


>. 
E(f)=E] = YE À |=pfy)=8 
n i=1 n 
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Le biais d’un estimateur est égal à: biais(B) = E(f) —f. Dans le 
cas qui nous intéresse, le biais est nul. Par conséquent, si on simule des 
échantillons en recourant à la méthode de Monte Carlo et que lon 
calcule B pour chaque échantillon, alors en moyenne on trouve que B 
est égal à la moyenne de la population, c’est-à-dire f. 


La variance de f, ici égal à la moyenne, se calcule comme suit: 


5 


Y. YV(Y) Ÿ V(B+e,) _ 


n n n n 


Pour estimer o°, on utilise 6? qui est égal à: 


où ê,=Y;-B. L'’estimateur 6? de ©? est sans biais parce que 


22 2 ; ;  . 
E(ô ] = 6°. La démonstration de ce résultat est présentée à l’appen- 


dice de ce chapitre. 


9, THÉORÈME DE GAUSS-MARKOV 


L’estimateur des MCO de f est l’estimateur BLUE? de ce paramètre. 
Un estimateur est dit BLUE si, parmi tous les estimateurs linéaires 
non biaisés, il est le plus efficace. Cette proposition repose sous l’hypo- 
thèse peu restrictive que les e; - IID(0, o?). Un estimateur BLUE est 
par définition: i) sans biais; ii) efficace, c’est-à-dire à variance mini- 
male dans sa classe. Incidemment, on peut trouver des estimateurs 
non linéaires biaisés mais à variance inférieure à celle des MCO. 
L'écart quadratique de tels estimateurs peut même être plus faible que 
celui des MCO. Notons que l'écart mir moyen (EQM) de B 


se définit comme suit: EQM(B) = Biais 2(8)+ v(6). 


20. BLUE est l’acronyme anglais de l'expression: Best Linear Unbiaised Estimator. 
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10. LA MÉTHODE D'ESTIMATION DU MAXIMUM 
DE VRAISEMBLANCE 


On veut estimer le paramètre fB de l’équation de y présentée à la 
section précédente par la méthode du maximum de vraisemblance. 
On rappelle que y?! est égal à: 


Yi =P+e; 


e; suit une NID(0, o?). La méthode du maximum de vraisemblance 
requiert que la distribution des résidus soit spécifiée, ce qui n’est pas 
le cas des MCO comme nous l’indique le théorème de Gauss-Markov. 
La densité jointe des résidus s’exprime donc comme suit: 


A f(e; )f(e> )..f(e.) 


en vertu de l’indépendance des résidus. La méthode du maximum de 
vraisemblance exige que l’on passe des résidus à y. Pour ce faire, on 
recourt à la transformation jacobienne. Pour circonscrire ce concept, 
supposons une fonction monotone reliant y à e, représentée à la 
figure 1.16. 


Démontrons informellement la provenance de la transformée 
jacobienne. À partir de la figure 1.15, on observe que la probabilité de 
se situer dans l’intervalle Ay est égale à la probabilité de se situer dans 
l'intervalle Ae, ceci étant dû au fait que y est lié à e par une fonction 
monotone. Mathématiquement, on peut représenter cette relation 
comme suit : 


Ay xf(y)=Aexf(e) 


À partir de cette expression, on obtient la transformation jacobienne 
en recourant aux transformations suivantes : 


21. Par la suite, dans le but d’alléger lexposé, on ne fait plus de distinction entre 
variable aléatoire et réalisation. 
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FIGURE 1.16 


A 
y 


Ay 


Ae e 


Si on prend la limite quand Ae + 0, on obtient le résultat suivant : 


f(y)=f(e) 


de 
dy 


: . n. : de 
où |.| désigne ici valeur absolue. Si l’on prend la valeur absolue de —, 
dy 
1 ) LION à . , > 
c’est pour s’assurer de la positivité de f(y) puisque l’on a supposé une 
fonction monotone croissante. Généralisons ce résultat au cas de 
plusieurs variables aléatoires ei, e2, e3, ...en. On a alors, en termes 
vectoriels : 


| [de ; .. 
où |——| représente la valeur absolue du déterminant de la matrice de 
dy 


dérivées partielles suivante : 


© 2001 — Presses de l’Université du Québec 
Édifice Le Delta I, 2875, boul. Laurier, bureau 450, Québec, Québec G1V 2M2 « Tél. : (418) 657-4399 — www.puq.ca 


Tiré : Traité d'économétrie financière, François-Éric Racicot et Raymond Théoret, ISBN 2-7605-1123-5 + D1123N 


Tous droits de reproduction, de traduction ou d’adaptation réservés 


Rappels statistiques 49 


de, de, de; 
0Y1  dÿ2 dYn 
de, de, de, 
dY1 O2 dYn 
de, de, de, 
dy: 02 0ÿ 


La valeur absolue du déterminant de cette matrice est connue sous le 
nom de jacobien de transformation de e à y. On recourt à ce jacobien 
pour passer de la fonction de densité de e à la fonction de densité de 
y. Pour simplifier, considérons le cas univarié. On à: 


= ÿi-p 
de;  : : : : : : 
Alors, ——=1. Ce qui implique la transformation jacobienne sui- 
dyi 
vante: f(y;)=1xf(e;). Dans le cas multivarié, la matrice des déri- 
vées partielles est égale à la matrice identité. 


Les développements qui précèdent servent à écrire la fonction de 
densité jointe du vecteur y à partir de celle du vecteur e. La densité 
jointe de y est de: 


F(y15Y257n)= (71) (72) f(yn) 


2 
1 1 ..— 
où f(y;)= exp| —-—Xx Yi-B . On a ici utilisé la règle de 
2n0° 2 6 
transformation de la fonction de densité des y; à celle des e; qui vient 


d’être établie. Puisque la densité jointe est ici le produit des densités 
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marginales, les e; étant indépendants par hypothèse, et par conséquent 
les vi, on peut écrire: 


pot} er) ouf (2 


2 i=] G 


E(yirTa 


Notons que f(.) est déterminé en fonction de valeurs données pour f 
et o?, d’où le caractère conditionnel de la densité jointe. La fonction 
de vraisemblance est pour sa part une fonction des paramètres, condi- 
tionnelle aux valeurs observées de y, c’est-à-dire : 


L(B,0°|y1,Y2;Ya )= CRCGE ep Ÿ yi8 


La méthode du maximum de vraisemblance consiste à trouver les 
paramètres f et o° qui maximisent la probabilité (densité de probabi- 
lité) de générer l’échantillon observé. Pour alléger, exprimons cette 
fonction en termes de logarithme : 


2 


n n 12 { y; -B 
f=lit=- hr) Mo = -Y | 
n x) À u 


Pour estimer B et o?, il suffit de maximiser € par rapport à ces 


paramètres, c’est-à-dire Max {. Pour ce faire, on égalise les dérivées 


B,o? 


de € par rapport à ces paramètres à 0: 
| 
— 2(yi— De = 0 
(o) 


On obtient la valeur de f par les manipulations suivantes : 


: à : Dr: 
Xlr:-B)=0=Yyi-nf=0=f6- 
n 
Pour obtenir un estimateur de o?, on suit la même procédure que 
pour f. Pour simplifier le calcul, posons o° =u. On dérive donc la 
fonction de vraisemblance par rapport à u et on l’égale à zéro: 
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Si on remplace dans cette équation u par 0”, on a: 


de 1 1 . - 
2 (if) =0 


En simplifiant, on obtient: 


51 


On constate donc que l’estimateur de B donné par le maximum de 
vraisemblance est identique à celui qui résulte des MCO. Par consé- 
quent, nous nous sommes permis de substituer À à B. Cependant, 
l’estimateur du maximum de vraisemblance de 0? est biaisé alors que 


celui associé des MCO, noté 6?, ne l’est pas. Donc, en supposant la 


normalité des résidus, utiliser la méthode des MCO revient à utiliser 
celle du maximum de vraisemblance en ce qui concerne l’estimateur 
de f, c’est-à-dire: B = B. Mais par contre, l’estimateur du maximum 
de vraisemblance de la variance est biaisé dans les petits échantillons 
mais convergent, c’est-à-dire que le biais disparaît dans les grands 


échantillons. 


11. TESTS D'HYPOTHÈSES 
ET INTERVALLES DE CONFIANCE 


Supposons le modèle suivant: 


;=p+e;, i=1,.,n 


et e; - NID(0, 0°), où o? est connu. Si on applique les MCO à ce 
modèle, on obtient alors $. Selon les hypothèses qui concernent les 


résidus, on peut écrire : 
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2 2 8 
eo) 6 f-8 
B-N1B,—|={6-8)-Nl0,—|= =. 
n n 6 / dt 
Les tests d’hypothèse sont basés sur cette statistique z. Pour tester si 
B est significativement différent d’une valeur donnée (test bilatéral), 
c’est-à-dire tester les hypothèses suivantes : 


H0:B = Bo 
HL$ 6, 


N(0,1). 


on construit z en remplaçant f par Bo et le test sera de rejeter HO au 
niveau de signification « si et seulement si: 


_|B-Bo 
o/\n 


Le test bilatéral est représenté à la figure 1.17. 


| >Z 


FIGURE 1.17 
f(z) 
1-a 
œ/2 æ/2 
27, Ze Z 
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S = P(> z.)=P(e<e7)= fr) &= [r() dz 


Le —œ 


où f(z) est le kernel de la normale. On peut aussi écrire, en recourant 


à la cdf: 


Par conséquent, 


F(-2.)+[1-F(2.)]=1-P(-2 <re<a)=û 


œ œ 
Notons que si F(z.) est monotone, F(-z, ) =, =F1 (=) 
2 2 


En vertu de cette dernière équation, l'intervalle de confiance de 
B est: 1-(1-P(-z. £z< z.))- On à donc, en substituant z par sa 
valeur : 


he. 
ne ; 


En effectuant quelques manipulations, on obtient l’intervalle de con- 
fiance pour f: 


P|=12:*< =1-@ 


nu Lepeñes 2-0 


Antérieurement, on a supposé que o° était connu, ce qui n’est plus le 
cas ici. 


Tests et intervalles de confiance 
lorsque o? n'est pas connu 


Test t 


A 


En substituant & à ©& dans l’équation de z, soit z = , on obtient 


la statistique t de Student: 6/\n 
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= (nr) 


6/Vn 


: =Y; _$ et (n — 1) étant le nombre de degrés de 


liberté. La statistique t est en fait Le ratio d’une normale N(0,1) et d’une 


X__ Ouvronsiciune parenthèse sur la distribution x? . Une x°(1) 


n-l 
est une N(0,1) au carré. Plus généralement, la somme de n variables 
normales au carré suit une distribution x? (n). Plus formellement, 


DZ 74 (n). L’allure de cette distribution apparaît à la figure 1.18. 
i=1 


FIGURE 1.18 
f() 4 
0 LS 
X£ xX 
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Pour fixer les idées, supposons que : e; - N(0, o?). Ceci implique 


que : e N(0,1). 


(e] à 2 
is _. €; 2 
En vertu des explications antérieures, ÿ — | -% (n). 
i=1 | O 
AND À 
ca ——— D (éi (n -1)6° 2 
Dans le cas où l’on substitue é; à e;, y = ; - (n — 1); 
i=1 \ © [e] 


22 
2 > 


où 6 = 


. Il reste (n — 1) degrés de liberté en raison de l’estima- 
n-i 

tion de la variance qui consomme un degré de liberté parce qu’elle 

requiert l’estimation de la moyenne. Par conséquent, 


N(0,1) _ o/\n : B-B .COFD. 


(n-1) [(n-1)é? 6/vn 


1] (n-1)o’ 


t = 


Nous voulons maintenant tester si B est significatif au niveau de 
confiance «&. Ce test, à caractère bilatéral, est le suivant: 


H0:B = Bo 
HLBz6, 


Nous voulons ici effectuer ce test pour le cas du modèle précédent. La 
règle du test est ici de rejeter HO au niveau «, qui est égal à 5 % sauf 
indication contraire, si: 


où t. est la valeur critique de la distribution t associée à «. La figure 1.19 
représente la distribution t. Cette distribution a grosso modo la même 
forme que la normale à partir d’un nombre de degrés de liberté égal 
à 120 et s’en rapproche de plus en plus par la suite pour devenir 
identique à la normale lorsque le nombre de degrés de liberté tend 
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vers l'infini. En deçà de 120 degrés de liberté, la forme de cette 
distribution dépend du nombre d’observations et a incidemment des 
queues plus épaisses que la normale. 


FIGURE 1.19 
ft) 
1-a 
@/2 œ/2 
+, te t 


L’intervalle de confiance de f se construit exactement comme 
dans le cas où © est connu, sauf qu’il faut remplacer & par 6. Cet 
intervalle se construit comme suit : 

Pl-t.<——<t,|=1-0 


6/\n 
Ce qui implique: 
PIB-t,6/1n <B<f+tô/\n]=1-a 


Cette équation signifie que la probabilité que f soit contenu dans l’inter- 
valle aléatoire est égale à (1 — a). C’est-à-dire que dans 100 échan- 
tillons générés, l'intervalle contiendra 95 fois f si a est fixé à 5 %. On 
écrit aussi de manière plus succincte cet intervalle comme suit: 


B+t.6/Vn. 
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Passons maintenant au test unilatéral sur 8. Ce test est le suivant. 
H0:B<B, 
H1:B>B, 
Ce test se formule comme suit: 
B—Bo 
LE, 
6/\n 


La règle de décision est la suivante. On rejette HO sit > t(n — 1). 
La figure 1.20 illustre le test unilatéral sur f. 


t 


FIGURE 1.20 


f( 


R 


Soit l’exemple suivant pour illustrer les deux tests précédents. 
Dans le cas du test bilatéral, si le nombre de degrés de liberté est 
supérieur à 120 et que « est supérieur à 5 %, t. est égal à 1,96, puisque 
la probabilité d’excéder ce nombre, qui est mesurée par la surface sous 
la distribution t comprise entre t. et l'infini, est égale à 0,025. Dans le 
cas du test unilatéral, tel que l’illustre la figure 1.20, le t. sera de 1,645, 
toujours pour un nombre de degrés de liberté supérieur à 120. On 
trouve ce nombre dans la table de la distribution t qui apparaît à 
l’annexe X. 
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Erreur de type Il et Il et puissance d'un test 


À ce stade-ci, il convient d'introduire certains concepts utiles dans la 
théorie des tests, en l’occurrence l’erreur de type I et la puissance d’un 
test. L’erreur de type I se définit comme la probabilité de rejeter HO 
alors que cette hypothèse est vraie. Par conséquent, la probabilité de 
l'erreur de type I est égale à a. Plus précisément, 


œX 
Plé mt J=PlIet PET er -26 
eee certe +5 
Pour sa part, l’erreur de type II est la probabilité de ne pas rejeter HO 
alors que HO est fausse. La probabilité de l’erreur de type I est 
inversement reliée à la probabilité de l’erreur de type IL. 


La puissance est définie en termes de l’erreur de type I: 
Puissance = nombre de fois qu’un test a commis une erreur de type I 


On peut évaluer la puissance d’un test en recourant à la simulation de 
Monte Carlo. Dans ce contexte, une simulation de Monte Carlo 
consiste à générer plusieurs échantillons et à calculer le nombre total 
de fois que le test a commis une erreur de type I sur l’ensemble des 
échantillons générés. 


Un autre concept fréquemment utilisé dans la pratique est la 
p-value. La p-value associée à une statistique donnée est la probabilité 
d'obtenir (par hasard), pour une expérience aléatoire quelconque, une 
valeur au moins aussi grande, en valeur absolue, que la valeur obtenue 
pour ladite statistique. 


p- value(t*) = 2(1 _ F{kt _ ]] =2x P{ktl St ; 
=2xP(1-P(t< t*)) 


où t* est la valeur estimée de la statistique t. 


La figure 1.21 illustre le calcul de la p-value. La p-value repré- 
sente la probabilité que la variable aléatoire t soit dans l’une ou l’autre 
des deux zones hachurées. Au seuil de confiance de 5 %, la p-value 
doit être inférieure à 0,05 pour que la statistique associée à la p-value 
soit significative. Par exemple, dans le cas de la statistique t, une 
p-value inférieure à 0,05 est associée à un t supérieur à 1,96 pour un 


© 2001 — Presses de l’Université du Québec 
Édifice Le Delta I, 2875, boul. Laurier, bureau 450, Québec, Québec G1V 2M2 « Tél. : (418) 657-4399 — www.puq.ca 


Tiré : Traité d'économétrie financière, François-Éric Racicot et Raymond Théoret, ISBN 2-7605-1123-5 + D1123N 


Tous droits de reproduction, de traduction ou d’adaptation réservés 


Rappels statistiques 59 


nombre de degrés de liberté supérieur à 120. Incidemment, la p-value 
peut être calculée pour toute autre statistique, telles la F et la chi-carré. 


FIGURE 1.21 
a/2 a/2 
—+* l'a 
Test F 
À partir de la statistique t de Student, soit: QT à 
: Jw/(n-1) 
(n-1)6° 2 : 
en ON (n-1) et z- N(0,1), en mettant le t au carré, on 
(e] 
obtient: 
2 2 
1)/1 
a =F(i,n-1) 


"D Fa 0/40 


La distribution F est donc le ratio de deux variables aléatoires de 
distributions chi-carré indépendantes divisées par leurs degrés de 
liberté respectifs, soit 1 et (n — 1). La distribution F est représentée à 
la figure 1.22. 
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FIGURE 1.22 


fŒ) 4 


On pourrait remettre en question l’utilité de la statistique t étant 
donné la relation directe entre t? et F. La réponse est simple. Alors 
que la statistique t permet d’effectuer des tests unilatéraux, ce n’est pas 
le cas pour la statistique F, puisqu'elle est le carré du t. Nous expose- 
rons plus en détails le test F ultérieurement. 


12. APPLICATIONS NUMÉRIQUES 


Les données utilisées pour illustrer les concepts exposés antérieure- 
ment concernent les dépenses mensuelles effectuées à partir de cartes 
de crédit de 72 individus. Ces données ont été colligées par Greene 
(1992). Au tableau 1.1, on retrouve un histogramme des observa- 
tions ainsi que les différents moments de la distribution et le test JB de 
normalité ainsi que sa p-value. 


22. Greene, W. (1992), A Statistical Model for Credit Scoring, document de 
recherche n° EC-92-29, Université de New York, département d'économie, 
Stern School of Business. 
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T'ABLEAU 1.1 


30 Series : CARTE 
Sample 1 100 
25 - Observations 72 
20 - Mean 262,5321 
Median 158,3200 
15 - Maximum 1898,030 
Minimum 9,580000 
10 - Std. Dev. 318,0468 
:1 Skewness 2,958400 
Kurtosis 14,04712 


D — #7 Jarque-Bera 471,1422 
DE MAS, 08, MSN FPS Probability 0,000000 


Sur ce tableau, on constate que la moyenne des dépenses men- 
suelles effectuées à partir de cartes de crédit est égale à 262,53 $. La 
médiane, à hauteur de 158,32$, s'avère ici très différente de la 
moyenne, ce qui est un signe de non-normalité. L’écart-type de la 
variable CARTE indiqué par Std.Dev., est de 318,05 $. Cela repré- 
sente une variation importante puisque le minimum de cette variable 
est de 9,58$ et le maximum de 1898,03$. En effet, les coefficients 
d’asymétrie et d’aplatissement sont respectivement de 2,96 et de 14,05, 
ce qui diffère substantiellement des valeurs correspondantes pour la 
normale, soit 0 et 3. La valeur de la statistique Jarque-Bera est de 
471,14 (p-value : 0,00), ce qui indique que la distribution empirique 
des données n’est pas normale. Ceci était anticipé puisque cette statis- 
tique est basée sur l’asymétrie et l’aplatissement. 


Au tableau 1.2, l’estimation par les moindres carrés ordinaires du 
paramètre f représenté par la variable C est de 262,53, ce qui corres- 
pond à la moyenne de la variable CARTE qui apparaît au tableau 1.1. 
L’écart-type de ce coefficient est de 37,48. Supposons que l’on veut 
tester l’hypothèse HO : B > 158,32 (médiane) contre l’hypothèse H1 : 
B < 158,32. Ce test est donc unilatéral. La statistique t associée à la 


262,53-—158,32 
37,48 


moyenne est de = 2,78. Par ailleurs, la valeur critique 
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de tavec (n — 1) = 71 degrés de liberté est approximativement de 1,66. 
Ce test invalide donc l’hypothèse nulle H0 : 8 = 158,32 au niveau de 


a =5%. 
T'ABLEAU 1.2 


Dependent Variable : CARTE 
Method: Least Squares 
Date : 04/13/00 Time : 19:21 
Sample: 1 100 IF X3 > O 
Included observations : 72 


Variable Coefficient Std. Error  t-Statistic Prob. 
@ 262.5321 37.48218 7.004184 0.0000 
R-squared 0.000000 Mean dependent var 262.5321 
Adjusted R-squared 0.000000 S.D. dependent var 318.0468 
S.E. of regression 318.0468  Akaike info criterion 14.37607 
Sum squared resid 7181919. Schwarz criterion 14.40769 
Log likelihood —516.5384  Durbin-Watson stat 1.785861 
Dependent Variable : CARTE 

Method: Least Squares 

Date : 04/13/00 Time: 18:15 

Sample: 1 100 IF X3 > O 

Included observations : 72 

Variable Coefficient Std. Error  t-Statistic Prob. 
C —304.1486 160.7096  —-1.892535 0.0626 
REVENU 225.6555  74.60287 8.024757 0.0035 
REVENUA2 —14.24923 7.185293  —-1.983111 0.0513 
R-squared 0.239702 Mean dependent var 262.5321 
Ajusted R-squared 0.217665 S.D. dependent var 318.0468 
S.E. of regression 281.8115  Akaike info criterion 1415758 
Sum squared resid 5460396. Schwarz criterion 14.25244 
Log likelihood —506.6727 F-statistic 10.837696 
Durbin-Watson stat 1.679384 Prob(F-statistic) 0.000078 
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Dependent Variable : CARTE 

Method: Least Squares 

Date : 04/13/00 Time : 18:14 

Sample :1 100 IF X3 > 0 

Included observations : 72 

White Heteroskedasticity-Consistent Standard Errors & Covariance 


Variable Coefficient Std. Error  t-Statistic Prob. 
C —-304.1486 16/7.3797 1.817118 0.0735 
REVENU 225.6555 86.57141 2.606582 0.0112 
REVENUA2 —-14.24923 7.084070 -2.011447 0.0482 
R-squared 0.239702 Mean dependent var 262.5321 


Ajusted R-squared 0.217665 S.D. dependent var 318.0468 
S.E. of regression 281.8115  Akaike info criterion 1415758 


Sum squared resid 5460396. Schwarz criterion 14.25244 
Log likelihood —506.6727 F-statistic 10.87696 
Durbin-Watson stat 1.679384 Prob(F-statistic) 0.000078 


Nous présentons maintenant un exemple qui illustre le calcul de 
la p-value. On veut tester l’hypothèse que la moyenne des dépenses 
sur cartes de crédit est égale à 0, soit HO: B = 0 (test bilatéral). La 
statistique t, toujours calculée à partir de l’échantillon précédent, est 


._262,53-0 


égaleà:t 
37,48 


= 7,00. La p-value associée à cette statistique 
est: 

p- value(7,00) = 2P[1-P(t <7,00)] = 2P[1-F(7,00;71)]= 0,0000 
où F est la cdf. Au seuil « = 5 %, on rejette fortement HO car la p-value 


est très nettement en deçà de ce seuil. Par ailleurs, l’intervalle de 
confiance de f est de: 


318,04 


B+t, — =262,53+1,99x 


= 262,53+74,58. 


le 
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Le coefficient de corrélation de Pearson pour le cas où l’on veut 
évaluer la relation linéaire entre les dépenses sur cartes de crédit et le 
niveau du revenu des individus est de : 


Cov(CARTE,REVENU) 


p = = 0,44. 
JV(CARTE) x V(REVENU) 


Par ailleurs, le coefficient de corrélation de Spearman, calculé par 


k Côv(R,S) ” 

Pspear = 7 = 0,53. Finalement le coefficient de corrélation 
MOME 

de Kendall, calculé par ee Ces calculs apparaissent au 

tableau 1.3. 


T'ABLEAU 1.3  Correlations 


CARTE REVENU 

CARTE Pearson Correlation 1.000 443 ** 
Sig. (2-tailed) : .000 
N 72 72 
REVENU Pearson Correlation 443 ** 1.000 
Sig. (2-tailed) .000 . 
N 72 72 


**, Correlation is significant at the 0.01 level (2-tailed). 
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Nonparametric Correlations 


REVENU CARTE 
Kendall's tau_b CARTE Correlation Coefficient 1.000 .874*%* 
Sig. (2-tailed) ; .000 
N 72 72 
REVENU Correlation Coefficient .374** 1.000 
Sig. (2-tailed) .000 . 
N 72 72 
Spearman's rho CARTE Correlation Coefficient 1.000 .5H347* 
Sig. (2-tailed) : .000 
N 72 712 
REVENU Correlation Coefficient .534** 1.000 
Sig. (2-tailed) .000 
N 72 72 


**., Correlation is significant at the .01 level (2-tailed). 
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ANNEXE 


2 . A 2 
Dans cette annexe, nous voulons démontrer que l’estimateur 6° de 6° 
nee , ee . A 2 2 « : 
est sans biais, c’est-à-dire : E(6 ] = 6°. Supposons une suite de variables 
2 
L(&-X) 
aléatoires IID(u, 02): X1, X2, .…, Xn On a: 6° = 122222 On 
n-Î 
élabore le numérateur comme suit : 


Dx-x) = L [(X: -u)-(K-u)f. On a donc: 


E(6?)-E) + = 
-—E I -u)-(R-u)f 
=—E [tx un) 2x 0) (R-u)+(R-u) | 
=) LR -u) -2n(R nu) +n(X-u) 
= —| LE -u) -nE(x-u) 
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Par définition, E(X; pu) = 6° et E(X-u) VAI. Alors 
n 
on a: 
E(é'}= Yo - no o?- cs 1 
n-1” n-ln n-Il n—-l n-Il 
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CHAPITRE 


2 


LE MODÈLE LINÉAIRE 
À DEUX VARIABLES 


Ce chapitre vise à présenter le modèle de régression linéaire à une 
variable explicative. Dans ce contexte, nous exposerons les moindres 
carrés ordinaires (MCO)! pour estimer les paramètres de cette équa- 
tion. Nous nous attarderons aux diverses formes fonctionnelles que 
peut prendre l’équation à estimer ainsi qu'aux tests statistiques et 
intervalles de confiance pertinents. Par la suite, nous dirigerons notre 
collimateur vers les indices de performance d’une régression et les 
diverses techniques de prévision en coupe instantanée. Finalement, 
quelques exemples financiers serviront à illustrer l’estimation du modèle 
linéaire à deux variables. 


1. SPÉCIFICATION DU MODÈLE À DEUX VARIABLES 
ET PROPRIÉTÉS DES ERREURS RÉSIDUELLES 


Le terme régression tire son origine de Galton (1889), qui a utilisé ce 
terme pour désigner le phénomène de régression vers la médiocrité 
qu’il notait dans une étude sur les tailles relatives des individus. Une 
régression linéaire se représente comme suit: 


Yt— B: +p3x, +e: 


Dans cette équation, y. est la variable dépendante ou expliquée. x. est le 
régresseur, dite encore variable indépendante ou explicative, où 


1. Soit les Ordinury Least Squares (OLS) en anglais. 
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t=1,..,T, soit l'indice des observations contenues dans l’échantillon. 
Dans cette équation linéaire, deux paramètres sont à estimer : B1 et f2. 


Les hypothèses du modèle de régression linéaire simple sont les 
suivantes : 


i) e. est une variable aléatoire appelée erreur résiduelle ID 
(0, o*). Cette hypothèse implique que E(e;) = 0, Vt; que 
Cover, es) = Ele:, es) = 0, Vt #5? ; que V(e:) = E(es?) = o°, Vt. 
Cette dernière hypothèse est celle de l’homoscédasticité. 
Cette propriété désigne la constance de la variance des erreurs 
résiduelles, une fonction scédastique désignant une fonction 
de la variance, le préfixe homo se rapportant au caractère 
constant de cette fonction. 


ii) x-est supposé non stochastique, ce qui signifie que dans des 
échantillons répétés, x. est fixé. Cette hypothèse implique 
que : Cov(x, et) =0= E(xe.) =0 


La figure 2.1 donne une représentation du modèle de régression 
linéaire à une variable explicative. 


FIGURE 2.1 


Yt 4 


e3 


Y3 


Yi 


X; X) X3 x 


2. On dit alors que e est orthogonal à e, (ou que e. est indépendant de e,). 
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Comme on peut Le constater sur cette figure, il n’existe pas de relation 
exacte entre yet xt. Par exemple, si x:= x1, y1 ne tombe pas exactement 
sur la droite de régression. Il existe un écart de e1 par rapport à la 
droite qui constitue le terme d’erreur de la régression pour cette 
valeur de x. Et ainsi de suite pour tous les autres x. La droite apparais- 
sant à la figure 2.1 est l’espérance mathématique suivante : 


E(y.) — B: hs 


en vertu des hypothèses précédentes. La variance de y. est donnée par 
l'expression suivante : 


VOS ff -E 0) eEf(r-B Bar) ]e (et) 20 


Par conséquent, la variance de la variable aléatoire y. se confond avec 
celle des erreurs résiduelles, c’est-à-dire : y: - ID (B1 + B2x, 0°) 


2. ESTIMATEUR DES MCO 


On vise à estimer les paramètres fi, et B2 du modèle linéaire de 
régression à deux variables. La règle de la minimisation de la somme 
des erreurs résiduelles au carré introduite au chapitre 1 est de nouveau 
utilisée ici. Elle se formule comme suit: 


Min S(B: ,B2) 


B1B2 


gi T 
où S(B:,B2)= Yet : DXE2 —$, hi 46 En élaborant le carré de 
t=1l t=l 


S, on obtient: 
S(B:,B2) De + TB: +Bi2x 28) y 282) xye+2BB2ÿ x 


Pour minimiser S(.), il suffit 7 calculer les dérivées partielles de cette 
fonction par rapport aux deux paramètres et de les égaler à zéro, c’est- 
à-dire : 


2S 


D BEBE REX 2x: +28, Lx 


1 
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oS à : 

Sa RE SL + y. 6; x.)=0 
1 

os 


— =0 = -2(-$, ir + yex. BY x.)=0 


dB; 


Ces deux équations peuvent être réécrites comme suit: 


Zr -f; —Bzx. )= Je, = 0 


Ces deux équations sont appelées : équations normales. Exprimée sous 
forme vectorielle, la dernière équation s’écrit : x!ê = 0. Un vecteur tel 
que ê, orthogonal à tout vecteur de l’hyperplan engendré par x, est dit 
normal à l’hyperplan. D’où le qualificatif « normal ». 


Pour déterminer B, et B;, on solutionne les deux équations 
normales pour ces deux inconnues. Selon la première équation nor- 


male, on 2: 
y é, =0= 2 = TB, +82) x, 


En multipliant cette équation par = ONE: 


>. D y = Yx TB: + . Y2p Par ailleurs, selon la deuxième 


équation normale : 


sé. ) =0= Re — Yx +Yx28, 


En multipliant cette équation par T et en soustrayant le dernier 
résultat de cette équation, on a: 


TEL Lr [TE (Ex) 


Il en résulte que: 
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On peut simplifier cette expression de la façon suivante : 


TE -x)(v: 7) 
T(L{x-3)) 
_ (Se -x)(v, -5))/(T-0 
(Et -3))/(T-1) 
- Côv (sy) _$ 
V(x) 


p,= 


A 


XY 
2 
x 


Connaissant B,,on déduit B; à partir de la première équation normale 
en la divisant préalablement par T: 


Lr _ B + Lx. 
T 


T 


D y=B;+B,x 6, =y-Px 


3. PROPRIÉTÉS DES MCO 


On peut représenter sous forme matricielle l’équation de la régression 
linéaire : 


y=XB+e 
où : 

Yi 1 X; € 

Y2 1 x, € 
B; 

Y — X={x, x, |= e = B = 

B: 2x1 

LYT ra [1 XT Jr LE Txi 
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De façon équivalente, on peut représenter ce système comme suit: 


B; 


y=xB,+xB,+e=[x, x, | +e=XfB+e 
B; 


où e - IID (0, o°I) : E(e) = 0 et V(e) = E(ee!) = o°I. Comme aupara- 
vant, X est une matrice de variables non stochastiques. 


Sous forme matricielle, l’estimateur des MCO s'écrit comme suit: 
ê Ty\lyT 
B=(X"X) X'y 

Les propriétés des MCO sont les suivantes : 


i) les MCO sont sans biais sous les hypothèses énoncées ci- 
devant. Cette propriété se démontre comme suit : 


f = (x'x) X'(XB+e)= (x'x) XTXB+ (x'x)" XTe 
= B+(x'x) XTe 
L’espérance de B est donc de: 
E(8) = E(B+ (xx) XTe)=B+(XTX) 'XTE(e)=8 
cette dernière opération se justifiant par le caractère non stochastique 


de X. Il s'ensuit que le biais de G, donné par: biais) = E(B) - B, est 
égal à zéro. 


üi) L’estimateur B est un estimateur linéaire. En effet: 
ê Ty\lyT 
=(xXTx) XTy = Ay = f(y) 


la fonction f(.) est une fonction linéaire de y. 


3. Les principales règles du calcul matriciel concernant ce chapitre apparaissent 
dans l’appendice de celui-ci. 
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iii) À l’intérieur de la classe des estimateurs linéaires sans biais, 
les MCO sont efficients, c’est-à-dire que pour tout autre 
vecteur B* associé à un autre estimateur linéaire, on a: 


v{c'f) < V{c'8 4 
où c'$ est une combinaison linéaire des coefficients estimés par la 


méthode des MCO. Dans le cas qui nous concerne, c'f est égal à: 


A 
1 


k B 
c'B={c, ce] 
6. 


Si la variance de cet estimateur est égale à celle des MCO et que cet 
estimateur est sans biais, cet estimateur ne peut être que celui des 


MCO. 


Il convient maintenant de calculer la matrice variance-covariance 
de B. On a: v(ô) = E}(f _ E($)) (8 _ (8) L | Sachant que 
: = 
B-PB= [x?x) X'e, on a: 


v(B)=E (px) are (er) are) 
= L(XTX) 'xTeerx(x x)" 
=(xTx) "XTE(eeT }x{xTx) 
=o'{x"x) 


Les principales règles du calcul matriciel apparaissent dans 
lappendice. 


T'elles sont les principales propriétés de l’estimateur des moindres 
carrés ordinaires. Il importe de spécifier la composition de la matrice 
variance-covariance de f. 
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vi)-E)(6-E@B)8-E C8) 
BB | . 
=E k [B, -B: B:-B:| 
BP : 


Il 
H 


Etant donné que l’on se situe encore dans le cas de la régression à 
deux variables, on peut représenter, comme on l’a vu antérieurement, 
la matrice variance-covariance* de façon compacte comme suit : 


Cov{f) = 0° (x'x) 


où X= [i x]. Plus explicitement : 


4. À noter que l’on utilise indifféremment Cov(.) ou V(.) (en gras) pour désigner la 
matrice variance-covariance. 
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Cov($)=o[[ix]" [ix] 


T 

Cov($)= 0° : li x] 
| ii x) 

Cov($) = 0° h | 


où ili = T. On a finalement: 


Le-n  L-s 


77 


Pour calculer la covariance de B, il suffit maintenant d’estimer 02. On 


a le modèle suivant: 


y=fB,i+B,;x+e 


En appliquant les MCO sur ce modèle, on obtient le vecteur des 


erreurs résiduelles : 


é=y-ÿ=y-Xf 
ê=y-X(X' X) 'X y-=-My 


où M=(1-X(XIX) 'X1). Cette matrice a la propriété d’être symé- 


trique et idempotente. On a également : 


MX = 0 
ê = My = Me 
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D'où : 
aTa 22 
_ é'è y ë 
O = = 
T-2 T-2 
A 2 & . CC 2 
6° étant un estimateur non biaisé de o*, on a: 
E(6?) = 0° 


Démontrons ce résultat. 


Élaborons le numérateur de cette équation. 
E(é’é) = E(e'M'Me) = E(e'Me) = E[tr(e'Me)) = E[tr(Mee' ] 
= (ME(ee" )) = (Mo? 1) = tr{Mo?)= otr(M)= 6? (T 2) 
où tr(M) = tr(T) — tr(X(X TX) IXT) = tr) — tr(XTX(XTX) 1) = T - 2. 
En substituant ce résultat dans l’espérance de 6°, on a: 
E(6?)= s'(T 2) EC 
(T2) 


Il va de soi que la démonstration est la même dans le cas multivarié 
(plusieurs variables explicatives). 


4. TESTS D'HYPOTHÈSES ET INTERVALLES DE CONFIANCE 


De manière à construire les tests d’hypothèses et les intervalles de 
confiance sur le modèle de régression suivant : 


Yr=Bi+Bix, te, 
il faut identifier la distribution des résidus. En vertu du théorème 
central-limite, on suppose que e; - NID(0, o?). Nous rappelons que 
cette spécification peut être vérifiée empiriquement par le test Bera- 
Jarque. Si e - NID(0, o°), en vertu des MCO, on peut écrire: 
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À, T N(B,, V(,)) ; B; L N(B,, (8, ] où : v(i) _ RP ; 


© A 
= Cr 
DES — x) 
On dispose maintenant des outils pour construire les tests. On 
applique la même procédure qu’au chapitre précédent. Étant donné la 


B: 82 


vb) 


généralement inconnu, on a: 


distribution de B;, on a: - N(0.1). Mais comme ©? est 


t(T 2) où on a remplacé 


AA 
€ € 


T -2 


V(.) par V(.) et où o? est estimé par 6° = . Par conséquent, 


l’intervalle de confiance pour f2 est de: 


B, € L €. (6), B, ET, (B.)| De façon plus concise, on 


peut écrire : B, AE #0 V(B:). 


5, PRÉVISION 


5.1. Prévision de E(yo) 


On veut prévoir les dépenses moyennes à partir des cartes de crédit 
désignées par E(yo) en fonction du revenu moyen representé par xo. 
Dans le cadre du modèle de régression linéaire, on a: 


vo = B1 + B2xo + eo 


où ep + NO, 0?) = y5-N[B +B2x0 0°) 
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Par conséquent, 


E(ys)= Bi +B2Xxo = Yo = E(yo)+eo 


yo est constitué de deux parties : 1) E(yo), soit les dépenses moyennes 
à partir de cartes de crédit pour un revenu yo; ii) eo, une erreur hors- 
échantillon. La valeur exacte de yo est donc inconnue car fi, fi2 et eo 
sont inconnus. Par contre, on obtient f jet 6 , par les moindres carrés 
ordinaires et on sait que E(eo) = 0 et que cette erreur n’est corrélée 


avec aucune autre, 1.e. Cov(e,,e,) =0 Vt #0. L’estimateur de E(yo) 
est obtenu en remplaçant f3; et B2 par B,et B,. On obtient donc la 
prévision suivante: ÿo = É(yo) =$B,+B;y,. L’estimateur ÿ,est un 
estimateur sans biais de yo puisque : 

E(ÿo ) : E(f + xoE(B) ) =$, +B,xo. En fait, l’estimateur E(.) est 
le meilleur estimateur linéaire de E(yo). 


La variance de cet estimateur se calcule comme suit: 


VOu)=Effo-E(ro)f =E((s. "(8-8)" (6-8) ") 
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Fort de ces résultats, nous sommes en mesure de construire 
l’intervalle de confiance de E(y) : 


Vo rt Ÿ(ÿ0) 


Cet intervalle est représenté à la figure 2.2. 


FIGURE 2.2 


Yo 


| 


X0 


5.2. Prévision de yo 


Nous voulons prédire les dépenses effectuées à partir de cartes de 
crédit et non les dépenses moyennes comme dans la section précé- 
dente pour un revenu xp donné. On a le modèle suivant: 


Yo = Bi +B2xo +eo 
Pour obtenir la prévision de vo, on procède comme dans la section 
précédente. On obtient: 


Yo = B1 +B2Xo 
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On calcule ici la variance de l’erreur de prévision. 


N2 
VOo-vo)=ot]14{s5" (XTX) x) +0! ++ (xo -X) 


Y (x x) 


6. MESURES DU DEGRÉ D'AJUSTEMENT 


La mesure la plus utilisée pour évaluer le degré d’ajustement d’une 
régression est le coefficient de détermination, désigné par R?. Il se 
définit comme suit : 


22 TA 2 
RS 1 L° an — - ne 
SCT Y (y: -ÿ) y'y- Ty 6, 


On peut démontrer cette relation comme suit. Soit le modèle de 
régression suivant: yt = fB1 + (32Z4 + e. On exprime ce modèle en 


déviation de la moyenne et on obtient: y,—y =f,+$B;x,+e,-y,où 
y =, +Bx. On a aussi: Yt =y=y, -y+ê.. 
D'où: ÿ,-y= Bi(x, -x)+ê.. En élevant au carré cette dernière 


équation et en sommant, on obtient: 


Ze) =X(.-5) +2X(8(5.-5))+ XL), 


où (F. 5) : B (x ). Puisque 2Y (e,(ÿ. -ÿ)) =0, on obtient 


DCE 7) - DEEE _ÿ) Eu y) 
SCT = SCE + SCR 
où SCT désigne la somme des carrés totale, SCE, la somme des carrés 


expliqués et SCR, la somme des carrés résiduels. En divisant les deux 
côtés par SCT, on a: 
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SCE SCR SCR SCR 
1= + =R? += R? =1-—— 5 Pour sa part, le R? 
SCT SCT SCT SCT 
ajusté de Theil se calcule comme suit: 
é'è 


On notera que l’on a ici corrigé pour les degrés relatifs de liberté. Le 
R° traditionnel augmentera tant que l’on ajoutera des variables même 
si celles-ci sont non significatives, alors que le R? ajusté pénalise l’ajout 
de variables explicatives à un modèle, qu’elles soient significatives ou 


pas. 


Le R? s’interprète comme suit. Dans le cas de deux variables 
aléatoires, ce coefficient est égal au coefficient de corrélation de Pear- 
son au carré. Il mesure donc la force du lien entre les deux variables. 


2 à 2 
,_ Œt--n) LG) 
R° = - _— - =p". Dans le cas 
Y (y: -7) re Y (y. -y) 

où il existe plusieurs variables explicatives, il mesure l’effet qu’ont les 
variations des variables explicatives sur la variable dépendante. Par 
exemple, si R? est égal à 30 %, cela signifie que 30 % de la variance de 
la variable dépendante est attribuable à la variance de l’ensemble des 
variables explicatives. 


Autres formes fonctionnelles pour la relation 
dépenses sur carte de crédit et revenus 
qui se ramènent au modèle linéaire standard 


Le modèle de régression linéaire qui vient d’être exposé ne s’applique 
pas seulement à l'équation décrivant une relation linéaire entre deux ou 
plusieurs variables. En effet, certaines formes fonctionnelles peuvent 


5. Ce R? est dit centré car il est calculé en déviation de la moyenne. 
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être linéarisées très facilement. Une fois cette transformation opérée, 
on peut alors estimer ces équations par les MCO. Voici les formes 
fonctionnelles les plus courantes qui sont facilement linéarisables. 


1) Forme quadratique 
La forme quadratique s’écrit comme suit: 


2 
Yt =B; +B2x: +e: 


Le graphique de cette relation apparaît à la figure 2.3. 


FIGURE 2.3 


Yt E(y) = B: 23 B> x 


Bi [ne l 


Xt 


Mettre les données au carré pourrait viser à capter les non- 
linéarités que pourraient incorporer les données. La contribution 
marginale de x dans l’explication de y est évaluée par la dérivée pre- 

es te UV .. D 
mière, soit: ——=28,x,. On voit ici que la dérivée n’est pas cons- 


X+ 
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. d° 
tante mais proportionnelle à x. La dérivée seconde: = = 2p;. 


(dx. 


Dans cet exemple, fB2 est positif. On peut ramener cette forme à la 
formulation standard antérieure du modèle de régression par la simple 
transformation suivante : z = x°. D’où on obtient: y: = (31 + f32z: + e+. 
Du point de vue de la régression, on retrouve le modèle linéaire bien 
connu. 


2) La forme log-linéaire (exponentielle) 


Cette relation s’exprime comme suit : 


Yi exp(B; + B2x: +e.) 


Par la transformation logarithmique, on obtient le modèle linéaire 
suivant : 


ny. = B: La B2x +e: 


La forme log-linéaire contribue à corriger les problèmes d’asymétrie 
au chapitre de la distribution empirique des observations ayant trait à 
la variable dépendante. Elle permet également de stabiliser la variance 
de la variable dépendante. 


3) La forme semi-log 
Cette forme s’écrit comme suit: 


exp(y.) = exp(B: L ex? 


Après transformation logarithmique, on obtient: 


Yt =B; + B In(x,)+e, 


Cette forme peut servir au traitement du problème de l’hétéroscédas- 
ticité dont il sera question dans un autre chapitre. 
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4) La forme log-log 

Cette forme s'écrit comme suit: 
exp(y.)= axe exp(e,) 

En appliquant la transformation logarithmique, on obtient : 
Iny,=f$B,+f$;lnx,+e, 


ce qui se ramène à un modèle linéaire standard. Cette forme est 
souvent utilisée pour représenter les fonctions de demande et de 
production (type Cobb-Douglas). En valeur absolue, l’élasticité de la 


dy: 
diny y 
fonction est ici mesurée par : ——}=|-1)=16,| Quand >1,la 
P das. dx, | ?| 1B2| 
X 


t 


fonction est dite élastique. Dans le cas inverse, elle est dite inélastique. 


L’élasticité est un concept que l’on retrouve fréquemment en 
finance. À titre d'exemple, dans la théorie des options, on peut calcu- 
ler l’élasticité du prix d’une option d’achat ou de vente. Pour l’option 
d’achat, l’élasticité de son prix à celui de l’action sous-jacente se 
calcule comme suit : 


dc 


ce S 
=> Nid) 
S 


où c représente le prix de l’option d’achat; $, le prix de l’action sous- 
jacente et N(d:), la probabilité cumulative sous la normale de moins 
l'infini à d16. Briys et 41.’ donnent l’exemple suivant. On suppose que 


6. Pour plus de détails sur ce sujet, voir : Racicot, F.-E. et R. Théoret (2000), Traité 
de gestion de portefeuille : titres à revenus fixes et produits dérivés, Presses de l'Univer- 
sité du Québec, Ste-Foy, chap. 6. On consultera également: Briys, E., M. Bellalah, 
HM. Mai et F. de Varenne (1998), Options, Futures and Exotic Derivatives : 
Theory, Application and Practice, Wiley, New York. 


7. Briys et 4l., op. cit. 
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S=18,X=15,rr=10%,T=0,25, © = 15 %. Alors, N(2,8017) = 0,997 
et c = 3,3659. Alors, l’élasticité du prix de l’option d’achat est de: 


élasticité = Le xX0,997=5,3317. L’élasticité indique le change- 
3,3659 

ment procentuel du prix de l’option quand le prix de l’action varie de 
1 %. Ici, un accroissement de 1 % du prix de l’action, c’est-à-dire de 
0,18, induit un accroissement de 5,33 % au chapitre du prix de l'option 
d’achat. Il s’ensuit que lorsque le prix de l’action passe de 18 à 18,18, 
le prix de l’option d’achat se voit modifié de 3,3659 à 3,5453 (3,3659 
X (1 + 0,0533)). Pour sa part, l’élasticité du prix de l’option de vente 
se calcule comme suit: 


7 su -[N(d,)-1] 


En utilisant les données précédentes, on obtient le résultat suivant 
P 
pour l’élasticité du prix de l’option de vente: 
18 


— |0,997-1|[=-12. Cela signifie que le prix de l’option de 
0,0045 ” . . 


vente diminue de 12 % quand le prix de l’action augmente de 1 %. 


5) La forme réciproque 


Cette forme s’écrit comme suit: 


1 
Yet] —|#e 


Xt 


Cette spécification est notamment utilisée pour estimer la courbe 
de Phillips, qui est la relation entre l'inflation et le taux de chômage. 
La représentation graphique de cette fonction pour le cas où f2 est 
positif apparaît à la figure 2.4. 
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FIGURE 2.4 


Ye = B1 + B2(1/x) 


B> > 0 


6) La forme log-inverse 


Cette forme s’exprime comme suit: 


1 
Ye = exp] Bi +; —+e, 
X+ 


En appliquant la transformation logarithmique sur cette forme, on 
obtient: 


In(y,)= B: +B> ee 


Xt 


Cette forme s'apparente beaucoup à la forme réciproque sauf que la 
variable dépendante est exprimée sous forme logarithmique. Quand x 
augmente, In(y:) diminue. 
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7. APPLICATIONS 


Fort des enseignements précédents, nous revenons dans ce chapitre à 
l'exemple des dépenses sur carte de crédit. On doit effectuer une 
régression du type suivant : 


Yr=Bi+B2x. te, 
où y: représente les dépenses moyennes mensuelles sur carte de crédit® 
et x:, le revenu des détenteurs de carte. Sur le fichier original, celui-ci 
est exprimé sur une base annuelle et est divisé par 10000. On régresse 
cette équation selon les MCO, qui comprennent 72 individus. Le 
résultat est présenté au tableau tableau 2.1. 


T'ABLEAU 2.1 


Dependent Variable : CARTE 
Method: Least Squares 
Date : 04/13/00 Time : 18:10 
Sample :1 100 IF X3 >0 
Included observations : 72 


Variable Coefficient Std. Error  t-Statistic Prob. 
C —22.50933  76.78067  —-0.293164 0.770383 
REVENU 82.93119  20.05219 4.135768 0.0001 
R-squared 0.196368 Mean dependent var 262.5321 
Ajusted R-squared 0.184888 S.D. dependent var 318.0468 
S.E. of regression 287.1440  Akaike info criterion 14.18523 
Sum squared resid 5771618. Schwarz criterion 14.24847 
Log likelihood —508.6683 F-statistic 17.10458 
Durbin-Watson stat 1.668577 Prob(F-statistic) 0.000097 


À la lecture du tableau 2.1, on constate que le R? (R-squared) est 
de 0,20. Pour sa part, le R? ajusté se situe à 0,18. Comme il s’agit ici 
de données microéconomiques, on s'attend à des R? plutôt modérés, 
de l’ordre de 0,25. En dépit du caractère très modéré du R?, on 
observe que le coefficient associé au revenu, à hauteur de 82,9, a une 


8. Soit les dépenses annuelles divisées par 12. 
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82,93 —-0 
statistique t significative égale à TT = 4,14 avec 70 degrés de 
20,0 
liberté et une p-value de 0,00, inférieure au seuil critique de 0,05. 
Pour illustrer, considérons deux exemples. 


Exemple 1 


On veut maintenant prévoir les dépenses sur carte de crédit associées 
à un niveau de revenu de 40000$. Les dépenses prévues pour ce 
niveau de revenu seront de: 


k 40 000 
0 =-22,51+ 82,93] = |=309,21$ 
10 000 


Nous voulons calculer l'intervalle de confiance de cette prévision. 
Nous devons donc évaluer la variance de celle-ci. Elle est égale à: 


.. 1 (4,00-3,44) ; 
Ÿ(S. )= 287,14) =1269,76 
(Fo) 727 205,06 al ) 


L’intervalle de confiance de la prévision de E(yo ) est donc de: 


309,21+1,99,/1269,76 où 1,99 est le t critique correspondant à 
70 degrés de liberté. 


Exemple 2 


L'exercice suivant vise à calculer le ratio de couverture optimal à 
partir de contrats à terme. Les contrats choisis sont les BAX qui sont 
transigés à la Bourse de Montréal. Ces contrats sont écrits sur des 
acceptations bancaires à trois mois. Nous disposons de données jour- 
nalières sur le prix de ce contrat pour l’année 1999, ce qui équivaut à 
250 observations. De façon à calculer le ratio de couverture optimale, 
on recourt à la méthode de l’appariement des positions au comptant et 
à terme. En vertu de cette méthode, le nombre optimal de contrats à 
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terme (NF) que l’on doit détenir pour couvrir de façon optimale le 
nombre de contrats détenus au comptant (NS) est de: 


AS AS 
INF] = — X INS|. Or, — =Psr = y. On peut calculer ce coeffi- 
AF AF OF 


cient en régressant S sur F, c’est-à-dire: S,=À +YF,+e.,. Pour la 
période 1999, on obtient l’estimation suivante : 


S, = 76,00 +0,24F, +£&.. Entre parenthèses, on retrouve les statis- 
(606) (184) 

tiques t. La Durbin-Watson est de 1,77 et le R? est 0,99, ce qui 

indique que les séries semblent cointégrées?. Le ratio de couverture, 

à hauteur de 0,24, est donc plutôt faible pour cette période mais 

historiquement, on remarque qu’il peut beaucoup fluctuer, du moins 

à en juger par certaines études de la Banque du Canadal°. 


Exemple 3 


L'exemple suivant est un test de la relation du CAPM!!. On suppose 
qu’il existe un actif sans risque dont le taux d’intérêt est de rf. On a la 
relation suivante qui relie le rendement espéré du titre i à celui du 
portefeuille du marché!? : 


Efr)=# +B[E(rx) - r | 


où Efr;) est le rendement espéré du titre 1, (E(rm)-rs), la prime de 
risque du portefeuille du marché, E(rh) étant le rendement espéré du 
portefeuille du marché et f;, le bêta du titre i. Cette équation est 
appelée SML (Security Market Line). Cette relation exprime la relation 


9. Pour l’explication de ce concept, voir le chapitre 9. 


10. Watt, D.G. (1997), Canadian Short-T'erm Interest Rates and the BAX Futures 
Market: An Analysis of the Impact of Volatility on Hedging Activity and the 
Correlation of Returns between Markets, document de travail, Banque du Canada. 


11. On retrouvera ce test dans Benninga, S. (1997), Financial Modeling, MIT Press. 
Pour une introduction au modèle du CAPM, on consultera : Gagnon, J.M. et 
N. Khoury (1988), Traité de gestion financière, 3° édition révisée, Gaëtan Morin, 
Boucherville, chap. 8. 

12. À noter qu’il est très courant de déduire le taux sans risque du rendement espéré 
du titre i pour formuler la SML. Benninga (1997) n’a toutefois pas retenu cette 
approche. 
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d'équilibre entre le rendement espéré du titre i et son risque. Selon le 
CAPM, cette relation est linéaire. f; mesure la sensibilité du rende- 
ment du titre i à celui du portefeuille du marché. Plus GB; est important, 
plus le rendement espéré du titre i réagit à une variation donnée du 
rendement espéré du portefeuille du marché. On estime le bêta à 
partir de l’équation suivante : 


De = Oi +hiru + ei 


On suppose les hypothèses habituelles pour le terme d’erreur, entre 
autres e-NID(0,0), ce qui est une hypothèse de base du CAPMF. 
Pour estimer cette équation, on dispose de la matrice de données qui 
apparaît au tableau 2.2. 


T'ABLEAU 2.2 

AMR BS GE HR MO UK S&P's | 
1974 —0,3505 -—0,1154 -0,4246 -0,2107 -0,0758  0,2331  —0,2647 
1975 0,7083 0,2472 0,3719  0,2227 0,0213 0,3569  0,3720 
1976  0,7329  0,3665  0,2550  0,5815  0,1276  0,0781  0,2384 
1977 -—0,2034 -—0,4271 -0,0490 -0,0938  0,0712  -0,2721 —0,0718 
1978  0,1663  -—0,0452 -—0,0573  (0,2751  0,1372  -0,1346  0,0656 
1979 -—0,2659  0,0158  0,0898  0,0793  O0,0215  0,2254  0,1844 
1980 0,0124  0,4751 0,3350 -0,1894  0,2002  0,3657  0,3242 
1981 —0,0264 -—0,2042 -0,0275 -0,7427  0,0913  0,0479 —0,0491 


1982  1,0642 -0,1493  0,6968  -0,2615 0,2243  0,0456  0,2141 


[1983 0,1942 0,3680  0,3110  1,8682  0,2066  0,2640  0,2251 | 


13. Si l’on exclut cette hypothèse, il faut supposer que la fonction d'utilité des 
individus est quadratique, ce qui semble cependant une hypothèse encore plus 
restrictive que celle de la normalité du terme d’erreur. 
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où AMR : American Airlines; BS: Bethlehem Steel; GE: General 
Electric; HR: International Harvester; MO: Philip Morris; UK: 
Union Carbide ; S&P’s: l'indice Standard & Poor’s 500, considéré ici 
comme l’approximation du rendement du portefeuille du marché. 


Fe 
122 


Les rendements sont calculés par la formule suivante: r, = In 


Précisons davantage la méthode d’estimation des bêtas. Nous sommes 
ici confrontés à 6 compagnies, donc 6 actions. Dans l’équation précé- 
dente, i = 1, .…, 6. Nous disposons de dix années. Considérons le 
calcul du bêta de la première compagnie (i = 1) , ici AMR. Sous forme 
matricielle, la régression s’écrit comme suit pour cette compagnie : 


ri = +Birsgps + €: 


r,, —0,3505 Fe —0,2647 

Li 0,7083 l 0,3720 
OÙ: = Time — = nm — Lsgps — = 

Li 10 0,1942 É 0 0,2251 


Les régressions des rendements des compagnies sont effectuées par 
les MCO. On obtient alors le vecteur suivant des bêtas estimés pour 
ces six compagnies : 
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B, 1,48 

B, 1,08 

B, 1,31 
B = ps 

B, 1,30 

B, | [0,26 

Be 0,49 


Par ailleurs, pour estimer E(r;) dans la relation du CAPM, on calcule 
la moyenne des rendements sur l’ensemble de la période pour la 


10 
y Lit : 
compagnie i: 5 === Efr, h Pour l’ensemble des six compagnies, 
10 
 ) (0,2032 
F 0,0531 
r, | |0,1501 
on obtient: R = = 
Fi 0,1529 
F | |0,1025 
Te 0,1210 
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Une fois les vecteurs R et B estimés, on peut estimer la prime de 
risque du marché en régressant R sur et sur une constante, qui est 
supposée le taux sans risque. On obtient: R= r; + EG LP ne. 
soit: Ê(r, = 0,0766 +0 05458... Si la constante est le taux sans risque 
et comme la prime de risque estimée est égale à 0,0545, on peut 


déduire l'espérance du rendement du marché comme suit: Ê(r) = 
0,0766 + 0,0545 = 0,1311. 


La statistique t de la constante est de 1.61 et celle de la prime de 
risque, 1,24. Le R? est de 0,28 et le R? ajusté, de 0,10. On en conclut 
que ce modèle n’est pas vérifié si l’on en juge par la faiblesse des 
statistiques t et du R2. Notons cependant que le nombre de degrés de 
liberté est très réduit mais il n’en reste pas moins qu'avec un échan- 
tillon plus grand, les conclusions pourraient être similaires. Nous 
avons également recouru ici à une méthode d’estimation très simple. 
Nous aurions pu sophistiquer davantage en recourant aux techniques 
du panel et à leurs variantes. Pour estimer le bêta de chaque titre, on 
aurait pu se servir de la technique ARCH-M sur chaque série en 
ajoutant la racine carrée de la variance conditionnelle dans l’équation 
qui sert à estimer le vecteur B. Cette procédure sera analysée au 
chapitre 10. 
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CHAPITRE 


3 


LE MODÈLE LINÉAIRE GÉNÉRAL 


Jusqu'ici, nous ne nous sommes intéressés qu’à une seule variable 
explicative. Le chapitre que voici se veut plus général en introduisant 
plusieurs variables explicatives. Encore une fois, ce chapitre se penche 
sur les problèmes d’estimation, de spécification, d’inférence et de 
prévision. Lorsque l’on passe au niveau de plusieurs variables explica- 
tives, force est d’utiliser le calcul matriciel. Les principes du calcul 
matriciel sont présentés à l’annexe de ce chapitre. 


1. FORMULATION MATRICIELLE 
ET HYPOTHÈSES DE BASE 


Soit le modèle linéaire suivant, qui incorpore plusieurs variables expli- 
catives : 
Ye = Bixu + 2x +. +frxu +e 


où xu = 1, Vt. Si l’on dispose de T observations sur y. et les x4, on 
peut écrire : 


Ya = Bi + Box + Baxi3 +... +Brxi +es 
Ya = Bi +B2x22 +B3x23 +... +Bixx +e; 


Yr = Bi +B2xr2 +B3xr3 +... +BLrxn +er 
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En exprimant ce système d’équations sous forme matricielle, on a: 


Yi 1 X12 X13 - - - X1k B; € 
Y2 Lx» X23 - - - Xk || B> €) 
= + 
YT L Xr2 X73 . . xx AB ET 


Sous forme compacte, ce système s’écrit : 
y = XB+e 


Les hypothèses de base du modèle classique linéaire général de la 
régression multiple sont les suivantes : 


i) Les innovations e sont IID - (0, o’Ir). Cette hypothèse 
implique que E(e); V(e) = E(ee!) = o?Ir. Cette hypothèse 
implique qu’il n’y a pas de corrélation entre les résidus: 
Cove, e) = 0, Vt#s. De plus, 6? = 0°, vt,s. C’est là l’hypo- 
thèse de l’homoscédasticité des résidus. 


ii) Les variables explicatives x sont supposées non stochastiques, 
c’est-à-dire qu’elles sont fixes dans des échantillons répétés. 
Cette hypothèse implique que E(xle) = 0. Cette hypothèse 
est nécessaire pour assurer que l’estimateur des MCO sera 
sans biais. C’est aussi une condition de moments utilisée 
dans la méthode des moments généralisés (GMM) qui sera 
traitée au chapitre 11. 


On veut estimer le paramètre 8 du modèle de régression : 
y = XB + e. À l'instar du chapitre 2, la méthode des MCO consiste à 
solutionner le problème de minimisation suivant : 
T T 
MIN S(B)= MIN Ÿ'e;, où Ÿ'e?=e'e. Ona: 
B B 1 


t= 
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e'e-(y-XxB) (y-XB) 
=(y"-B'xT)(y-Xx$) 
=(y'y-y"x8-8'xTy-B'xTx8) 
=y y-2B X y-B'X Xp 
Pour calculer B, on calcule la dérivée suivante : 


oS(B) 


—— =-2X 'y-2X "XB. On égalise ce résultat à zéro et on obtient: 
9B 

a a ni 

B = (X"x) X'y. Précisons ce calcul en introduisant les formes 

quadratiques et les techniques de dérivation matricielle. 


D'abord la forme quadratique. Sa forme générale est la suivante : 


xTAx = D» D x iX jai, Où À est une matrice symétrique. Soit l'exemple 


i 
suivant où i = 1, 3 et j = 1, 3. Soit À = XTX, cette matrice étant tirée 


de l’estimateur des MCO et x = 8 dans cette forme quadratique. Par 
conséquent : 


3 3 3 
B'AB = D) BBa; = Y (BBA; +B:B;2;; + B:B;a;;) 


je j=1 
= (Braun +B2B1a2 +BBrau )+ 
(B-Bia + B5a 2 +BB2a3 ]+(BsBiars +B3B2a23 + Bas) 


Parce que A est une matrice symétrique, on a: 
T 2 
B AB= af +a,6$; +2a,,6.b; 


2 
+a 2B5 +2a;3B2B; 


2 
+a:3p; 
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La dérivée de la forme quadratique s’effectue comme à l’accou- 
tumée, c’est-à-dire : 


a(pAB) 
dB, Ai An à VB: 
a(B'AB) | o[B"AB 
dE )_ : ) lag aù ax ]p:|=2Ap=2X7Xfh. 
o(B'AB) A3 A3 23; B; 
CIE 


C’est là la dérivée recherchée qui constitue le second terme de 
dS(B) 
9B 


son premier terme se calcule comme suit. Posons : 


aB'x"y) _ a(p'a) cette substitution : 


96 9B 


, en la faisant certes précéder d’un terme négatif. Pour sa part, 


étant effectuée pour simplifier les calculs. On a donc: Bla = Ba; + 


B2a2 + B3a3. La dérivée partielle recherchée se réduit donc à un simple 
calcul habituel, c’est-à-dire : 


9(B'a) 

dB, 5 
a(8'a)_|a(8'a) |), | x 
dB dB, | 

9(B'a) : 

6, 
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Nous avons donc démontré comment calculer la dérivée recherchée : 


dS(B) TL TE 
le SN TV INT 
mn y B 


Comme cela a été évoqué plus haut, en égalant cette dérivée à 0, on 
obtient sous forme matricielle les équations normales énoncées au 
chapitre 2, c’est-à-dire : 


X'y=X"'Xp 
= $=(X'X) X'y 
ce qui est l’équation des MCO. En développant les matrices, on a: 


À 2 

B: Xe D xuxo NET ENT Ve 
à 2 

B> X 41X +2 X+2 * e É : XoXt%k XoYt 


—1 


à 2 
Br D xuxu re. è * : X% D xay 


Pour être certain d’obtenir un minimum, on requiert la condition 


PSP —__—..—— 
second ordre suivante : Sp" =2X X, soit une matrice définie posi- 


T 
tive, c’est-à-dire que les déterminants des sous-matrices de XTX soient 
tous positifs. 
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2. PROPRIÉTÉS DE L'ESTIMATEUR DES MCO 


Dans le cas de la régression multiple, l’estimateur des MCO possède 
les mêmes propriétés que celles évoquées au chapitre 2 : i) l’estimateur 
des MCO du vecteur f est sans biais et efficient dans la classe des 
estimateurs linéaires. Cela se résume par le théorème de Gauss- 
Markov: sous les hypothèses du modèle classique linéaire général, 
l’'estimateur des MCO B est l’estimateur BLUE! de bêta. Par consé- 
quent, en supposant que les résidus e; - IID(0, o°) et que X est non 
stochastique, on obtient le meilleur estimateur linéaire du modèle de 
régression. 


Il reste à démontrer ces propriétés. D’abord, celle ayant trait à 
l’absence de biais. On sait que B = (X!X) ! X!y, où y = XB + e. En 
remplaçant y par sa valeur dans l'expression de B et en insérant 
l'espérance à l’intérieur de l’expression, on a: E(B) = B + (KEX 1 
XTE(e) puisque XLe. Par conséquent, B ne présente pas de biais. 


Passons maintenant à la propriété de l'efficience. Rappelons le 
calcul de la variance de B. On a: V(B) = EI [CB — BXB - 81] = TX)! 
XTE(ee!)X(XTX) ! = co (X1X) !. À partir de ce résultat, on peut 
déduire que l’estimateur des MCO est l’estimateur linéaire dont la 
variance est la plus faible dans la classe des estimateurs linéaires. En 
effet, si l’on suppose un autre estimateur linéaire B*, cela revient à 


dire que vf) < v{B +) et que pour toute autre combinaison linéaire : 
v{c'f) £ V(cTh*). 
Envisageons maintenant l’estimateur de la variance de B, 
é'e 


A LOL, — . 
V(B)=6(x"x) , où 6° = et où 6° est l’estimateur sans 
T-k 


biais de o? puisque le dénominateur de 6° représente le nombre de 
degrés de liberté. 


1. Soit le best linear unbiaised estimator. 


© 2001 — Presses de l’Université du Québec 
Édifice Le Delta I, 2875, boul. Laurier, bureau 450, Québec, Québec G1V 2M2 « Tél. : (418) 657-4399 — www.puq.ca 


Tiré : Traité d'économétrie financière, François-Éric Racicot et Raymond Théoret, ISBN 2-7605-1123-5 + D1123N 


Tous droits de reproduction, de traduction ou d’adaptation réservés 


Le modèle linéaire général 103 


R2 et R2 


Le coefficient de détermination R? se calcule comme suit à partir de 
l'équation de SCT, soit la somme des carrés totale: SCT = SCE + 
SCR, où SCE désigne la somme des carrés expliquée et SCR, la 
somme des carrés résiduelle. En divisant les deux membres de l’équa- 
tion par SCT, on obtient: 


UL . . ; / 
où À = I est la matrice de transformation des données en dé- 


. T | - 
viation de la moyenne. Par exemple, si R? = 87 %, cela signifie que 
87 % de la variation de la variable expliquée est attribuable aux varia- 
tions des variables explicatives. Il peut être montré que: 


2 Cov(ÿ,,y.) 


ATARI 


carré entre ÿ, et y. Comme ÿ, est une prévision de la valeur de y:, R? 
est un indicateur du caractère explicatif de l’équation de régression à 
bien modéliser y.. La valeur de R? est comprise entre 0 et 1. Plus R° 
est rapproché de 1, plus le caractère explicatif du modèle est impor- 
tant. Comme cela a été expliqué au chapitre 2, cette mesure a la 
déficience d’augmenter au fur et à mesure que l’on ajoute des variables 
explicatives même si celles-ci ne sont pas significatives. À noter que 
l'interprétation du R? comme coefficient de corrélation de Pearson 
entre une variable explicative et la variable dépendante n’est plus 
valable, puisque l’on est évidemment ici en présence de plusieurs 
variables explicatives. Une mesure alternative qui corrige ce problème 
associé aux degrés de liberté est le R? ajusté de Theil. Elle se définit 
comme suit : 


, qui est le coefficient de corrélation au 


R?=-1 D &/(T-k) 5 


S-n/T-) à 
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Cette mesure utilise les estimateurs sans biais de la variance des 
erreurs résiduelles et de la variance de y. Il faut également souligner 
que les deux mesures du degré d’ajustement du modèle de régression 
que nous avons présentées sont centrées, c’est-à-dire qu’elles sont 
définies en déviation de la moyenne. On pourrait également exprimer 
ces mesures en données brutes. 


3. HYPOTHÈSES SUR LES ERREURS ET CONSÉQUENCES 


Supposons le modèle de régression suivant : 
Ve = Bi + Boxe ++ Brxu test= 1, T 


où e- N(0, o°). L'application des moindres carrés ordinaires (MCO) 


à Si 
à ce modèle implique que $ - NEC [x"x) } Précisons les impli- 
cations de ces hypothèses : 


i) Sous l’hypothèse de normalité des erreurs, non seulement 
l’estimateur des MCO est BLUE par le théorème Gauss- 
Markov, mais il devient le meilleur estimateur sans biais de 
B. La variance des MCO atteint la borne Cramer-Rao, borne 
inférieure pour tous les estimateurs. Cela signifie que sans 
l'hypothèse de normalité, il peut exister un estimateur non 
linéaire biaisé de 3, mais qui comporte une variance échan- 
tillonnale inférieure à celle des MCO. 


ii) L’estimateur des MCO de f se confond avec celui du maxi- 
mum de vraisemblance. Pour ce qui concerne la variance, 
l’estimateur de la variance de o? du maximum de vraisem- 


blance est toutefois biaisé, ce qui n’est pas le cas pour les 
MCO. 


iii) Sous l'hypothèse de normalité, on obtient des tests exacts. 


” à 
Sachant que fB - N[Bo°{x"x) } cela revient à dire que 


l’on connaît les distributions exactes des tests. On peut donc 
construire les tests t, de x? et de Fisher dans les petits échan- 
tillons. Advenant le cas où l’on ne connaît pas la distribution 
des erreurs, on recourt aux distributions asymptotiques de 
nos estimateurs pour ainsi effectuer les tests LM, LR et de 
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Wald. Il existe d’autres méthodes de tests pour les petits 
échantillons, tels les tests non paramétriques. 


4. TESTS D'HYPOTHÈSES 
ET INTERVALLES DE CONFIANCE 


Tel qu’on vient de le mentionner, l'hypothèse de la normalité des 
résidus nous permet d’effectuer des tests d’inférence et de calculer des 
intervalles de confiance. 


Tests t 


Considérons le cas où o° est inconnu. Soit HO: Bx = 0 et H1 : Br # 0, 
c’est-à-dire que l’on veut tester si fB4 est significativement différent 
de 0. Pour construire ce test, on procède de la même façon qu’au 
chapitre 2, c’est-à-dire, sous H0: 


sed 0 à 
RG ane (TS 


où x provient de la diagonale de la matrice (XTX)-!. La représenta- 
tion matricielle de la variance de f est la suivante: 


2 
> Ye. . . . X tk 
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Par exemple, pour k = 2, «3 est épal à: c., = Pr 


Intervalles de confiance 


Pour 6? inconnu, la technique pour construire un intervalle de con- 


fiance est exactement la même que celle présentée aux chapitres 1 et 
2, c’est-à-dire : 


P[-t. <t<t,]=1-0 


= PAT) < Bi < be +e VE) 1-0 


L’intervalle de confiance pour f4 s'écrit: By +sef, ] xXt,, Où se est 


l’écart-type de f.. Le test qui vient d’être présenté est bilatéral. Pour 
ce qui concerne les tests unilatéraux, la technique est identique à celle 
exposée aux chapitres 1 et 2. 


Test F 


Dans le chapitre précédent, on a présenté le test F dans Le cas univarié 
comme étant un t?. Mais dans sa forme la plus classique, le test F est 
utilisé pour effectuer un test conjoint sur l’ensemble des paramètres. 
En effet, pour tester l’hypothèse HO: B2 = B3 = … = Br = 0: B, = 0 
contre H1 : au moins l’un des fi est différent de 0: f, 4 0. Le test F 
correspondant est le suivant. Tout d’abord, nous savons que: 


B. - N{ 6/M). Posons : 


4 + LP 
où M={x, AX;) =(x. x.) . Posons : 
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_6&(T-k) 


W2 — 2 Xe (T-k) 
(e] 


Sachant que le test F est construit à partir du ratio de deux x? divisées 
par leurs degrés de liberté respectifs, on a alors: 


(8) (8) 

(k-1) - 
pis W) 7 FT) 

(T-Kk) 6? 

T-k 
_(B.-8.) (me) (B.-8.) 
k—1 

_(-s.) CE) Eee. 


F= -F.(k-1LT-Kk) 
k-1 
Wi 
k-1 BTX.'X.f 
Comme F = ) , que W,= > # 1e — et que 
W2 (o] (o] 
(T -K) 
6&"(T-k) SCR 
W> = =, 0na 
(o) (o) 
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_ SCE/k-1 R°/k-1 
SCR/T-k {1-R?)/T-k 


puisque R?xSCT =$CE et (1-R?)xSCT =SCR. 


Estimation en présence de contraintes linéaires 
sur les paramètres 


Dans la section précédente, nous avons présenté la procédure géné- 
rale pour tester l’ensemble des paramètres. Dans cette section, nous 
nous attaquons à la procédure pour tester un sous-ensemble de para- 
mètres faisant partie de cet ensemble. A cet effet, supposons que l’on 


Br) [0 


veut tester HO: B, = = qui est le sous-ensemble de l’ensemble 


B;)/ (0 


des paramètres (B2, B3,..., Br), contre l’alternative H1 : 


Br) [0 


bs= £| |. En utilisant la notation habituelle, on peut écrire les 


B;/ (0 


contraintes linéaires sur les B comme suit: 
RB=r 


Le test HO est ici le suivant si l’on suppose un ensemble de cinq 
paramètres : 


H0: RB-=-r 
HL: RBzr 
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Bs 


Pour construire le test F en utilisant cette notation, il faut estimer la 
covariance de f., c’est-à-dire : 


A 


Ÿ(8,)=RV(R)RT =R6°{xTx) RT 


V(B) Côv(B,B) Côv(B.;) 
0 0 
Côv(B,.8) V(B.) Côv(B.8;) 
1 0 
0 1 0 0 0 
= 0 1 
0 0 1 0 0 
0 0 
— _ _ 0 0 
Côv(B,,B,)  Côv(B;.B2) ÿ(B) 


V(B) Côv(B2,8;) 
Côv(B2,8;) V(B;) 
Après avoir calculé cette variance et sachant que RB = B, et que 


RB-r- (B, = B.), on peut écrire le test F basé sur la notation géné- 
rale des contraintes linéaires sur les paramètres comme suit: 
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(R$ - :] [Rcov(BjR"] (ré -r) 


F= 
q 
_ 
(Rô-r) Rx x) rt (Rô-r) 
SCR, -SCRy 
| Sa “E(QT-k) 
TL 


Envisageons maintenant l’estimation en présence de contraintes. 
Nous traitons toujours le cas du modèle de régression linéaire à cinq 
paramètres où H0 : B2 = B3 = 0. Si l’on incorpore ces contrainte, dans 


ce modèle, on 2: 
VET B: a Bax4r + Bsxse +ERt 
En appliquant les MCO sur cette équation, on obtient les résidus 
suivants : 


êr =y-XRBr 
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La somme des carrés résiduels contraints est donc égale à: 


D ä à “T 
SCRr =(y-Xfx [y -XBx )= êr ER 
Par ailleurs la somme des carrés résiduels non contraints, soit SCRu, 
est égale à: SCRy = [y - xôu) (y - XBu = ee. Par consé- 


B> 0 0 
quent, le test d’hypothèse H0: B, = = contre H1 : B, # 
B; 0 0 
SCR£R -SCRy 
s'écrit comme suit: F= RS -F. (2T-k). Si HO est 
T-k 


vraie, on devrait s'attendre à ce que SCRR soit très rapproché de 
SCRu. En effet, les variables 2 et 3 n’exercent pas alors d’incidence 
sur la régression. La statistique F est alors rapprochée de 0, très en 
deçà du seuil critique au-delà duquel HO serait rejetée. Par ailleurs, si 
F>EÆ, SCRv est sensiblement plus faible que SCRè& et les contraintes 
ne sont pas valables. HO est alors rejeté?. 


Supposons maintenant que l’on veut estimer et tester le modèle 
contraint suivant. Dans le modèle précédent, nous imposons les con- 
traintes suivantes. Sous 


HO: B2 + B3 + Ba + Bs + 0 


2. La variance de l’estimateur contraint sera toujours inférieure ou égale à celle de 
l’estimateur non contraint puisque, à l’instar de la statistique bayesienne, on fait 
appel à de l'information supplémentaire à l'extérieur de l’échantillon. 
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C'est-à-dire, en notation matricielle : 


RB=r, où 
; 


B; 
RB=[0 1111] 16, |=0+8,+6,+8, +8; 
B: 


B; 


et r = 0. Par ailleurs, sous H1 : RG z r. L'interprétation de HO est la 
suivante. Imaginons que le modèle précédent concerne la demande 
d’un bien, par exemple la demande de contrats au comptant sur les 
carcasses de porc, sur lesquelles peuvent être aussi écrits des contrats 
à terme. Les variables explicatives x, x3 et x4 sont les prix relatifs 
habituels et xs est le revenu. Supposons que l’on double le prix des 
carcasses (x), de même que les prix des autres viandes (x3 )et les prix 
des biens et services restants (x4). On double également le niveau du 
revenu (xs). Dans ce contexte, l'hypothèse HO signifie que la quantité 
demandée de carcasses de porc demeurerait la même en dépit de ces 
variations de prix et de revenu. 


Pour tester HO, on estime l’équation restreinte suivante. Rem- 
plaçons fB4 par — B2 — B3 — 85. En substituant cette valeur dans l’équa- 
tion présentée précédemment, nous obtenons le modèle contraint 
suivant : 


Ye = Bi + B2x2e +B3x3 +(-B: —B; -B; Jr +Bsxs: er 


En réarrangeant cette équation, on obtient : 


Ye =B: +B(x2 —xar)+B3(xs —xa)+Bs(xse —xa.)+eR 


3. Ce qui est bien sûr une façon d’exprimer l’hypothèse H0 : fB2 + fB3 + fB4 + Bs = 
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Dans une première étape, on estime ce modèle par les MCO pour 
obtenir les résidus contraints &R et l’on peut ainsi calculer la somme 

lé me à 4 A TA 1.7 
des carrés résiduels contraints: SCR2» = èg êR- Dans une deuxième 
étape, on estime le modèle non contraint d’où l on déduit la somme 
des carrés résiduels non contraints: SCR, = ê, êu- À l’aide de ces 
informations, on formule le test F comme suit: 


-F.{L(T -5)) 


où q=1etk=S$. La règle est de rejeter HO si F > FQ(1, (T — 5)) ou si 
la p-value(F) < 0,05. Notons que pour J = 1, un test de Student aurait 
pu convenir. En effet, l'hypothèse H0 se formule alors comme suit: 


H0: B2 + B3 + Ba + B5s =0 


contre l’alternative H1 : B2 + B3 + B4 + Bs # 0. La procédure du test 
s'effectue en deux temps. 


_ (SCRr -SCRy)/1 
 SCRy/(T-5) 


1) On estime la régression : y: = fB1 + Barr + Baxse + Baxar + Bsxst 
par les MCO), d’où on obtient B,,B3,B4 et Fe 


2) On fait la somme de ces coefficients estimés et on construit 
le test t de Student de la façon habituelle. 


_(Br+ fs +84 + Bo 
AIT B> +3 +B4 +$;) 


(T-S) 


où V se calcule comme suit: 


AR 4 5  …. 
V(B:+B,+84+85)= D VB )+ D Y Cov(B.f) 
i=2 i=2 j=3 


et où Cv(f B) provient de la matrice variance-covariance de G: 


B: V(B)=6 1" x) . La règle est de rejeter HO au seuil à = 5 % si 


el Ce WA - k), ou lorsque la p-value(t) < 5 %. 
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Il est à signaler que le test F aurait pu être formulé en termes de 
R?. Le test F pour tester un sous-ensemble de paramètres s’exprime 
comme suit : 


_ (SCRr -SCRu)/q (R? -RE)/q 
 SCRu/(T-k)  (1-R&)/(T-k) 


Cette dernière égalité repose sur les relations suivantes : 


SCRr =(1-R£ JSCTr; SCRy =(1-RÈ ) SCT. 


5, PRÉVISION DANS LE MODÈLE LINÉAIRE GÉNÉRAL 


Nous transposons ici les techniques de prévision introduites au cha- 
pitre 2 au modèle linéaire général. Soit le modèle suivant à quatre 
variables explicatives : 


Ye = Bi + Boxe + B3xez +Baxes +Bsxes re, 


où e- N(0, o°). Supposons que l’on veuille prédire y à partir des 
valeurs suivantes des variables explicatives : xo = [1 xo2 Xo3 xo4 xo5]!. On 
veut donc prédire E(yo). En substituant le vecteur xo dans l’équation 
de y:, on obtient: 


T 
Yo =Xo B+e 
où B=[B> B; B4 B5sl'. Le meilleur estimateur linéaire sans biais de 
E(yo) est : 


ns vS 
Ÿo = Xo B 
où B est l’estimateur de la régression de y. sur le terme constant et ses 


quatre variables explicatives. L’intervalle de confiance de cet estimateur 
est: 


Yo + n6 x" (x'x) x; 
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6. APPLICATIONS 


Pour illustrer ce chapitre, nous renouons avec l’exemple des dépenses 
sur les cartes de crédit que nous avons traité en partie dans les cha- 
pitres précédents. Nous voulons effectuer la régression suivante, qui 
renferme plusieurs variables explicatives : 


Y = x1B; +x2B2 +x,B, +x4B4 +x,B; +e 


où x1 est un vecteur unitaire; x2 est le vecteur des données sur les 
revenus ; x3, le vecteur des revenus au carré qui sert à capter la non- 
linéarité de la fonction des dépenses; x4, un vecteur des âges en 
années ; xs, un vecteur de variables dichotomiques qui prend la valeur 
1 si l’individu possède une maison et 0 s’il est à loyer. En appliquant 
les MCO sur ces données, on obtient les résultats qui apparaissent au 
tableau 3.1. 


T'ABLEAU 3.1 


Dependent Variable : CARTE 
Method: Least Squares 
Date : 04/13/00 Time : 18:09 
Sample :1 100 IF X3 >0 
Included observations : 72 


Variable Coefficient Std. Error  t-Statistic Prob. 
C —-237.1465 199.3517  —1.189589 0.2384 
REVENU 234.3470 80.36595 2.915999 0.0048 
REVENU A2 —14.99684 7.469337  —2.007788 0.0487 
AGE —3.081814 5.514717  —0.558835 0.5781 
LOYERMAISON 27.94091 82.92232 0.336953 0.7372 
R-squared 0.243578 Mean dependent var 262.5321 


Ajusted R-squared 0.198418 S.D. dependent var 318.0468 
S.E. of regression 284.7508  Akaike info criterion 14.20802 


Sum squared resid 5432562. Schwarz criterion 14.36612 
Log likelihood —506.4888 F-statistic 5.393722 
Durbin-Watson stat 1.682310 Prob(F-statistic) 0.000795 
smpl if x3 = 0 smpl if x3 > 0 

series carte = NA series carte = X3 

series loyermaison = na series loyermaison = x4 

series 4ge = n4 series age = x 

series revenu = NA series revenu = x2 
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On observe entre autres que seules les variables revenus et revenus 
au carré sont significatives au seuil de 5 % puisque leur p-value est 
respectivement de 0,005 et de 0,049, soit inférieures au seuil critique 
de 0,05. Les R? et R? ajusté sont respectivement sont de 24,3 % et de 
19,8 %, soit du même ordre que dans l’exemple du chapitre 2. En 
regard de cet exemple, l’augmentation du R? ajusté est faible puisque 
dans cet exemple, celui-ci se situait à 18,5 %. Par ailleurs, le R? ordi- 
naire a beaucoup plus augmenté puisque dans l’exemple du chapitre 2 
il se situait à 19,6%. Cette situation était anticipée puisque le R° 
ordinaire n’est pas corrigé pour les degrés de liberté. 


Finalement, le test F sur l’ensemble des variables explicatives 
dégage une statistique F de 5,39 et sa p-value est de 0,000. Les 
variables explicatives sont donc significatives et tel que mentionné 
plus haut, les tests t nous permettent de discriminer entre les variables 
explicatives. 
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ANNEXE 


RAPPELS DE CALCUL MATRICIEL 


1. OPÉRATIONS MATRICIELLES 


1.1. Addition et soustraction 


Soit deux matrices carrées A et B d’ordre 2 X 2. La somme de ces 
deux matrices s'effectue comme suit: 


421 422 bx b» 


a+b2 a» +b» 
Pour la soustraction des deux matrices A et B, on remplace les + par 
des — au niveau des éléments de la matrice B. 


Soit trois matrices À, B et C conformables. La loi de l’associativité 
vaut également pour la somme des matrices, c’est-à-dire : 


(A+B)+C=A+(B+C) 
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1.2. Multiplication et produit Kronecker 


Nous voulons maintenant multiplier les matrices À et B. Ces deux 
matrices sont conformables pour la multiplication puisque le nombre 
de lignes de A est égal au nombre de colonnes de B. Nous procédons 
comme suit pour multiplier A et B: 


a1Pis +ay2ba1  A11Di2 ab» 
AB = 
a)1Diy tab ab +a»b» |, 


Par ailleurs, A@B, ou le produit Kronecker de A et B, désigne le 
produit de chaque élément de A par B, c’est-à-dire : 


aB a,,B 
A@B- 
a,,B a,B 4x4 


Soit trois matrices conformables À, B et C. La loi de l’associativité 
vaut pour le produit de ces trois matrices : 


(AB)C = A(BC) 


1.3. Transposée d'une matrice 


Soit la matrice précédente A. Sa transposée est l’interversion de ses 
lignes et colonnes, c’est-à-dire : 


Soit trois matrices conformables À, B et C. On a: 


(A+B+C) =AT+BT+CT 
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Par ailleurs, la règle concernant la transposée d’une multiplication est 
la suivante : 


(ABC) =CTB'AT 
2. MATRICES CARRÉES IMPORTANTES 


2.1. La matrice | 


La matrice identité de dimension (n X n) s’écrit comme suit: 


1 0 0 

0 1 0 0 
L:= 

0 0 0 1 


Cette matrice est diagonale car les triangles supérieurs et inférieurs 
contiennent des éléments qui sont nuls. Seuls les éléments de la 
diagonale principale ne sont pas nuls. Supposons maintenant un vec- 
teur y de dimension (n X 1). On a: I,y = y. La transposée de cette 
TET LT 

Li =y . 


La matrice I, est un cas de matrice symétrique. En effet, une 
matrice symétrique est une matrice carrée, c’est-à-dire de dimension 
(n X n), qui est égale à sa transposée. Soit une matrice carrée A. A est 
symétrique si : AT = A. Pour fixer les idées, dans le cas de la méthode 


2 il 4 F 
opération est la suivante : (L,y) =Y 
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des MCO), la matrice (XTX) est une matrice symétrique puisque la 
transposée de cette matrice est égale au résultat initial. 


2.2. Matrice idempotente 


La matrice A est idempotente si À = A? = … = A, C'est-à-dire que 
lorsque l’on multiplie la matrice À par elle-même autant de fois que 
l’on veut, on revient à la matrice originale. Une matrice idempotente 
très connue est la matrice dite residuals maker matrix* que l’on peut 
traduire en français par matrice génératrice des résidus : 


M=I-X(X'!Xx) 'x! 


Cette propriété signifie, par exemple, que M? = M. Cette matrice a 
également la propriété d’être symétrique, c’est-à-dire que: M! = M. 


À ce stade-ci, il convient d’introduire la trace d’une matrice 
carrée. Elle se définit comme la somme des éléments de sa diagonale 


principale, c’est-à-dire : tr(A) _ ÿ ai , où À est une matrice carrée. 


1 
Soit maintenant deux matrices A et B, dont les dimensions respectives 
sont de (m X n) et de (n X m). Par conséquent, AB et BA sont deux 
matrices carrées et: 


tr(AB)=tr(BA) 


Pour trois matrices À, B et €, si le produit donne des matrices carrées, 
on a: 


tr(ABC) = tr(CAB) = tr(BCA) 


AT A 
€ € 


Cr < CE A 2 
Cette propriété nous a servi à démontrer que G° = est un 


estimateur non biaisé de o?. En effet, pour démontrer cette propriété, 
il faut calculer l'espérance de 6?, et pour effectuer cette opération, on 
doit calculer E(ê'6), c’est-à-dire : 


4. Cette matrice est ainsi appelée car lorsqu'elle prémultiplie y, on obtient les résidus 
estimés. En effet, My = [I - X(XTX) 1 XT] y = y - XTX) IX Ty = y - XB = ê. 
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car la trace d’un scalaire est égale à ce scalaire’. Il s’ensuit que: 
= Eftr(Mee' ] 
= t[ME(ee' ) 
= tr(Mo’I) 
= o°tr(MI) 
= o’tr(M) 


Pour terminer ce calcul, il nous suffit de calculer la trace de la matrice 
M. Ce calcul s'effectue comme suit: 


(M) = e(D-u(x(x'x)" x") 


=n (xx) x'x) =n-tr(l,)=n-k 


2.3. Le déterminant d'une matrice 


Soit une matrice B de dimension 3 X 3: 


5. En effet, e!Me est un scalaire. 
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Le déterminant de B se calcule comme suit: 
B|= ) #b;b;by 
ik 
=b1b2b3; +b,2b3b31 +b;3b21b3 
—b;1b23b32 —b5b21b33 —b13b2b3: 
L'opérateur Z + commande toutes les permutations des indices 1, 2 et 


3, le signe moins s’imposant lorsque l’ordre naturel des indices est 
inversé. De façon plus générale, le déterminant d’une matrice A est: 


A] — ÿ taia; ds 


1,j,S 
Voici quelques propriétés des déterminants : 


i) Le déterminant d’une matrice triangulaire B 


est égal au produit des éléments de sa diagonale principale, 
soit sa trace : 


IB|= b,,bb3; 


ii) Le déterminant du produit de deux matrices carrées A et B 
de même dimension est égal à: 


JAB|=]A|IB| 
Un corollaire à cette règle est que: 


ie 
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ii) La multiplication de toute ligne ou colonne d’une matrice 
par une constante a le même effet sur le déterminant de cette 
matrice. Pour illustrer, multiplions par c la première ligne de 
la matrice B précédente : 


cb, cb; cb; 
b;: b b;; > c|B] 


b3: Ds LES 


Par ailleurs, multiplier tous les éléments d’une matrice (n X n) 
par la constante c revient à multiplier son déterminant par c. 


iv) Si une ou plusieurs lignes ou colonnes d’une matrice sont 
linéairement dépendantes, alors le déterminant de cette 
matrice est nul. On dit qu’une telle matrice est singulière par 
rapport à une matrice régulière dont le déterminant est 
différent de 0. 


2.4. L'inverse d'une matrice 


L’inverse d’une matrice se calcule comme suit en utilisant la méthode 
de l’adjointe (adj). Soit une matrice B de dimension (3 X 3). Son 
inverse désigné par B°! se calcule comme suit: 


1 1 
B'=—x{adi(B)}=—x|Cy Cr Cx 
[B, [B} 
C3 Cp C3 
où 
Cÿ=(-1)"M; 
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Ci; est appelé le cofacteur et Mi; est le mineur, obtenu en calculant les 

déterminants des sous-matrices obtenues en supprimant la i° ligne et la 
PP gn 

j° colonne. A titre d'exemple, pour la matrice B (3 X 3) précédente, 

Cu est égal à: 


à ba  bx 
Cu = (-1) 
by D; 


Voici les propriétés de l’inverse. 
i) L’inverse de l’inverse d’une matrice carrée B donne la ma- 
trice B, c’est-à-dire : (B-!y-! = B. 


ii) Le produit d’une matrice par son inverse donne la matrice 
unitaire: BB! =I. 


iii) L’inverse de la transposée d’une matrice est égale à la trans- 
posée de l'inverse : (B1)°! = (B-1)l. On a donc: (B-!)! BT=I. 


iv) L’inverse d’une matrice triangulaire supérieure ou inférieure 
est également une matrice triangulaire supérieure ou infé- 
rieure. 


v) L’inverse d’une matrice partitionnée est également une ma- 
trice partitionnée. Soit la partition suivante de A: 
An An 
À = où Ay1 et A2 sont des matrices carrées 
A7 An 
régulières. L’inverse de cette matrice est alors: 


; B;; -B;;,AA5 
A- 


-A;;A;:B; A; n A5AB1ApA 


Aïi +A;ApBA3Aïi -A;; AB 


-B;,A A; B;; 
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= -1 
où: B;1 = EN -AA5A 1) et B = (A - AAA) 


Pour illustrer, prenons l’exemple suivant. Dans le cas du 
maximum de vraisemblance d’une régression linéaire à plu- 
sieurs variables explicatives, la matrice d’informationf, qui 
sert à calculer la matrice variance-covariance des estimateurs 


1 

B\ |—(x"x) 0 
de GB et de o° , est la suivante: I =|S : 

2 26 
(o] 0 — 

n 

Cette matrice partitionnée est de la forme: 

0  A,, 


En vertu de la formule de l’inverse de la matrice partitionnée 
qui vient d’être exposée, l’inverse d’une telle matrice est la 


A7 0 
suivante : . FE () est donc égale à: 
0 A, 
E 
B\ [o’{[x'x) 0 
1! = . Cette matrice est parti- 
n 
2 
(e] 0 + 
26° 


culièrement utile pour le calcul des tests asymptotiques de 
Wald et LM où elle apparaît explicitement. 


6. Cette matrice est ainsi appelée car elle informe sur la courbure de la fonction de 
vraisemblance. 
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3. DES MATRICES IMPORTANTES : 
LA MATRICE VARIANCE-COVARIANCE 
D'UN PORTEFEUILLE DE TITRES ET LA COVARIANCE 
ENTRE DEUX PORTEFEUILLES 


Imaginons qu’un portefeuille soit composé de deux titres : Le titre 1 et 
le titre 2. La pondération du titre 1 dans ce portefeuille est w, et celle 
du titre 2, w. De plus : w1 + w2 = 1. L’espérance du rendement de ce 
portefeuille est de : 


E(R, }=wE(R,)+w;E(R;) 


Par ailleurs, la variance du rendement du portefeuille est pour sa part: 
2 
Var(R,)=EÎR, -E(R,)] 
En remplaçant R, et E(R,) par leur valeur respective, on a: 
2 


En regroupant les termes, on obtient: 


2 
Var(R, )= Ewi(R: -E(R;)}+w2(R; -E(R))] 
= wi[R; -E(R:)] +2wiw2E[(R; -E(R;))(R; -E(R:))] 
+wi[R -E(R)] 
= W101 +2w1W2012 + W202 
où 6° désigne la variance du rendement du titre 1 ; 65, la variance du 
rendement du titre 2 et o12, la covariance entre les rendements des 


titres 1 et 2. Plus généralement, dans le cas d’un portefeuille de N 
titres, la variance du rendement de ce portefeuille s’écrit: 


© 2001 — Presses de l’Université du Québec 
Édifice Le Delta I, 2875, boul. Laurier, bureau 450, Québec, Québec G1V 2M2 « Tél. : (418) 657-4399 — www.puq.ca 


Tiré : Traité d'économétrie financière, François-Éric Racicot et Raymond Théoret, ISBN 2-7605-1123-5 + D1123N 


Tous droits de reproduction, de traduction ou d’adaptation réservés 


Le modèle linéaire général 127 


L’équation de la variance du rendement d’un portefeuille est une 
forme quadratique. On peut recourir à la forme matricielle quadra- 
tique pour l’exprimer de façon plus compacte et combien plus facile à 
manipuler. 


Dans le cas de deux titres, l'espérance du rendement du porte- 
feuille antérieur s'écrit : 


E(R:) 
E(R, }=[w w) | =w'E 
E(R:) 


où E est le vecteur des espérances de rendement. La variance de R, est 


de: 


HN 


© O2 | Wi 
Var(R, )= [w: w | = w!Qw 


2 
G)1 G2 [LL W2 


où ( désigne la matrice variance-covariance des rendements des deux 
titres. La variance du rendement d’un portefeuille est donc une forme 
quadratique matricielle. Certes, cette matrice est symétrique puisque 
o12 = 021. Le lecteur généralisera très facilement les résultats anté- 
rieurs au cas de N titres. 


Nous envisageons maintenant deux portefeuilles qui renferment 
les titres 1 et 2, mais avec des pondérations différentes. Dans le 
premier, que nous désignons par p, les pondérations des deux titres 
sont de w1 et w. Dans le second, que nous désignons par s, les pon- 
dérations sont de z1 et z2. Certes, pour chacun de ces deux porte- 
feuilles, la somme des pondérations est égale à 1. 


Nous voulons calculer la covariance entre les rendements des 
portefeuilles p et s. Cette covariance en vertu même de la définition 
de la covariance, est égale à: 


Cov{R ,,R,)= EÏ(R, -E(R, )J(R; -E(R, )] 
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En remplaçant R, et R, par leur équivalent en termes des rendements 
des titres 1 et 2, on obtient: 


(wiR: + w2R2 - wE(R;)-wE(R;)) 


CHERE (zR; +22R2 —-zE(R;)-2E(R:)) 


En regroupant les termes, on a: 


On obtient finalement : 
Cov(R, R, ] = W1Z101 + W2Z]0)] GT W1Z2012 L d W 2209 


Cette expression finale de la covariance entre les rendements de deux 
portefeuilles est déjà lourde et pourtant les portefeuilles ne compren- 
nent que deux titres. Le recours au calcul matriciel simplifie de beau- 
coup le calcul de cette covariance. Pour le cas précédent, on a: 


2 
Gr SulA 
Cov(R,,R,)=[w w | =w'Qz 
2 
On Le 
où w désigne le vecteur de pondérations du portefeuille p et z, celui du 


portefeuille s. Cette expression se transpose immédiatement au cas de 
N titres. 
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4. QUELQUES APPLICATIONS DU CALCUL MATRICIEL 
EN FINANCE 


Dans le but d'illustrer l’utilisation du calcul matriciel en finance, nous 
présentons dans cette section trois applications : i) la couverture opti- 
male d’un bilan bancaire par des contrats à terme; 2) la construction 
de la frontière efficiente ; 3) le modèle de l’erreur de suivi (tracking 
error) de Roll. 


4.1. Couverture optimale d'un bilan bancaire‘ 


Le modèle que nous présentons dans cette section est une simple 
transposition de la théorie du portefeuille de Markowitz au bilan 
bancaire. En effet, un bilan peut être considéré comme un portefeuille 
de titres. Les actifs sont assimilables à des titres que détient un inves- 
tisseur, ici une banque. Pour leur part, les passifs peuvent être consi- 
dérés comme des actifs négatifs, soit des titres vendus à découvert 
dans le cadre de notre analogie. L'objectif de la banque est de maxi- 
miser le rendement de l’avoir des actionnaires. Le bilan de la banque 
se présente comme suit: 


Bilan de la banque XYZ 


Actifs Passifs 
Vi V3 
V Va 

S 


où V. désigne les actifs à court terme ; V>, les actifs à long terme; V3, 
les passifs à court terme; V4, les passifs à long terme et S, l’équité. 
L’avoir des actionnaires peut pour sa part, être considéré comme un 
investissement dans un portefeuille qui est ez compte (long) dans les 
actifs et à découvert (short) dans les passifs. 


4. Pour rédiger cette sous-section, nous nous inspirons de: Copeland, TE. et 
JE. Weston (1988), Financial Theory and Corporate Policy, Addison Wesley, New 
York, chap. 6. 
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— Chacune des rubriques du bilan, actif et passif, comporte un taux 
de rendement R: et un coefficient de pondération wi. Ces coeffi- 
cients sont définis par rapport à l’avoir des actionnaires : 


où V; désigne la valeur de l’actif (ou du passif) etS, l'équité. La somme 
de ces coefficients de pondération est bien sûr égale à l’unité en vertu 
de l’identité comptable du bilan. 


Le rendement de l’avoir des actionnaires s’écrit comme suit: 
où w3 et wa, associés à des passifs, sont négatifs. 


La banque veut minimiser la variance de l’avoir de ses action- 
naires. Pour ce faire, elle recourt à des contrats à terme. Le prix d’un 
contrat à terme est de P; et son rendement, de R;. On veut déter- 
miner le nombre de contrats à terme, désigné par N, qui minimise la 
variance du rendement des actionnaires. 


Les contrats à terme, selon qu’ils soient achetés ou vendus, 
deviennent un nouvel actif ou passif dans le portefeuille que constitue 
le bilan bancaire. A la suite de l’introduction des contrats à terme, le 
rendement de l’avoir des actionnaires s'écrit: 


NP 


Pour trouver le nombre de contrats qui minimise la variance de 
R;, on égale la dérivée de la variance de KR, par rapport à N à 0. La 
variance de KR, est égale à: 


Var(R,)=w'Qw 


T NP; 
S 


soit la transposée des coefficients de pondérations et Q est la matrice 
variance-covariance des rendements de tous les actifs et passifs pré- 
sents dans le bilan de la banque, y compris les contrats à terme, c’est- 
à-dire : 
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G11 O2 G15 

G21 Op O5 
Q = 

(ES Os) . . Os 


Nous tirons parti des règles de la dérivation matricielle pour 
calculer N. Rappelons rapidement l’une d’elles que nous utilisons à 
l'intérieur de cet exercice. La variance de KR, est une forme matricielle 
quadratique du type: 


y=x]Ax 


où À est une matrice (N x N) et x, un vecteur (N x 1). La dérivée de 
y par rapport à x est égale à: 


4 
dx 


2Ax 


— Dans le cas où A est une matrice (2 X 2], cette dérivée est égale à: 


É 2 2 
ariX, +2a,,x 
dy de 11X1 12X2 
d 
dx ee 2a,,X1 + 22»»X) 
dx 


Dans le cas qui nous intéresse, si l’on dérive la variance de KR, par 
rapport à w, on obtient: 


dVar(R,) | 
dw 


2Qw 
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Pour le cinquième actif, soit le contrat à terme, cette dérivée est égale à : 


dVar(R,) 


dw; 


NP, 


Où Ws = et (5 désigne la 5° ligne de la matrice V. 

— Revenons au problème qui nous intéresse. On veut déterminer le 
N qui minimise la variance de R4. Pour ce faire, on recourt à la 
règle de la chaîne: 


dVar(R,) _dVar(R,) dw; 


= 0 
dN dws dN 
soit, 
P; 
S 
— Puisque (P;/S) ne peut être nul, cette égalité implique que: 
Et comme: 
Vi 
W; = — 
S 
cette condition d'optimisation s’écrit, en termes de V: 


En isolant la valeur du cinquième actif, soit celle du contrat à terme 
qui est égale à NP, on obtient: 


4 
6$NP, — -Y V:6;; 


La valeur de N qui minimise la variance de l’avoir des actionnaires est 


donc égale à: 
N == Vos 
P; 6; 


On est donc à même de constater que ce sont les covariances entre le 
rendement du contrat à terme et celles des autres actifs et passifs du 
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bilan qui importent du point de vue de la couverture. À l'instar de la 
théorie de Markowitz, les covariances des rendements tiennent le haut 
du pavé comme mesure du risque dans ce modèle de couverture 
optimale d’un bilan. 


Il est plus simple de manipuler cette dernière formule lorsqu'elle 
est exprimée en termes de corrélation des rendements. La relation 
entre la covariance 6; et la corrélation ris s’écrit bien sûr comme suit: 


Gis — is; 


En termes de corrélation, le nombre optimal de contrats à terme 
requis pour la couverture du bilan est égal à: 


N=-Y Ni x Avr, 
P; 6: 


Cette formule nous indique que la couverture optimale d’un bilan par 
des contrats à terme dépend de trois facteurs : 


i) le ratio de la valeur de la rubrique du bilan à couvrir au prix 


: : V, : _. 
d’un contrat à terme: —_!. En fait ce facteur est associé à une 
P; 

couverture naïve. Celui qui est étranger à la finance divise la 
valeur à couvrir par le prix d’un contrat pour déterminer le 
nombre de contrats optimal. Mais la formule signale que ce 
dilettante oublie deux éléments dont tout bon spécialiste de 
la finance doit tenir compte: 


ii) le rapport entre la volatilité de lactif à couvrir et celle du 


contrat à terme : 21. En effet, plus la volatilité de l’actif (ou 
5 

du passif) à couvrir est élevée par rapport à celle du contrat 

à terme, plus il faut acheter de contrats. On exerce alors un 

effet de levier sur la volatilité du contrat à terme, ce qui la 

rapproche de celle de l'actif (ou du passif ) à couvrir ; 


iii) la corrélation entre le contrat et l’actif à couvrir: r;s. S’il 
n'existe aucune corrélation entre le rendement du contrat à 
terme et celui d’un actif (ou d’un passif), inutile de couvrir 
cet actif (ou ce passif). Par ailleurs, si la corrélation est de -1, 
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cela correspond à la situation idéale au plan de la couverture. 
S’il appert que cette corrélation est de -1 pour chaque 
rubrique du bilan, la variance de KR, s’avérera nulle après 
couverture, c’est-à-dire que la variance minimale de l’avoir 
des actionnaires est alors nulle. 


La formule de la couverture optimale nous révèle d’autres infor- 
mations. Considérons d’abord le cas d’un actif. Le V correspondant 
est alors positif dans la formule. Si la corrélation entre le rendement 
du contrat à terme et celui de cet actif s’avère positive, la formule 
indique qu’il faut alors vendre des contrats à terme pour les fins de la 
couverture (N négatif) puisque la formule est précédée d’un signe 
négatif. Dans pareil cas, les prix de l’actif et du contrat à terme ont 
tendance à évoluer dans la même direction. De façon à couvrir lactif 
par le contrat à terme de manière à diminuer sa volatilité, il faut donc 
inverser cette corrélation entre les prix de l’actif et ceux du contrat à 
terme. C’est en vendant des contrats à terme qu’on pourra y parvenir. 
Les pertes que l’on essuiera sur l’actif seront alors compensées par les 
gains réalisés sur la vente de contrats à terme, ce qui est le principe 
même de la couverture (hedging). 


Supposons maintenant un cas de corrélation positive entre le ren- 
dement d’un passif et celui du contrat à terme. V entre alors néga- 
tivement dans la formule de la couverture. Celle-ci indique alors qu’il 
faut acheter des contrats à terme pour les fins de la couverture (N 
positif). En vertu de la corrélation positive, les prix du passif et ceux 
du contrat à terme tendent à évoluer à l’unisson. Mais le passif étant 
une dette, lorsque la valeur du passif augmente, on espère récupérer 
cette perte par un gain sur le contrat à terme. Comme les prix du 
passif et du contrat à terme évoluent dans le même sens, c’est en 
détenant des contrats à terme que l’on pourra alors compenser cette 
perte par un gain sur le contrat à terme. Donc, lorsqu'il existe une 
corrélation positive entre le rendement d’un passif et celui d’un con- 
trat à terme, il faut acheter des contrats pour se couvrir. On laisse au 
lecteur le soin de développer les cas de couverture qui se rapportent à 
une corrélation négative entre le rendement d’un actif (ou d’un passif) 


et celui du contrat à terme. 


5. Nous avons estimé le ratio de bedging pour le cas des BAX à la fin du chapitre 3. 
Cette section permet évidemment de mieux l’interpréter. 
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4.2. Une méthode générale pour calculer 
une frontière efficiente 


Nous nous attaquons maintenant au cas de la construction d’une 
frontière efficiente. Celle-ci est Le lieu des combinaisons rendement- 
risque optimales de portefeuilles. Pour chaque espérance de rende- 
ment donnée, la frontière efficiente donne le portefeuille qui comporte 
l’écart-type minimal, soit le risque minimal, pour cette espérance de 
rendement. La frontière efficiente classique apparaît à la figure A3-1. 


FIGURE A3-1 La frontière efficiente classique 


A 
E(R) 


o(R,) 


où E(R)) désigne l’espérance du rendement d’un portefeuille et o(R),), 
son écart-type. Le problème de la construction d’une frontière efficiente 
consiste donc à minimiser la variance du rendement du portefeuille : 


Var(R, )= D wiw;6; 
D) 


wi; étant la pondération du titre i dans le portefeuille p, sous deux 
contraintes : 
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i) la contrainte d’un niveau donné de rendement espéré E*: 


Y wE(R;)=E* 
E(Ri) désignant l’espérance de rendement du titre i; 


ii) la contrainte que la somme des pondérations des titres dans 
le portefeuille soit égale à l’unité: 


D w;=1 


Pour solutionner ce problème en termes des wi, nous devons écrire la 
fonction de Lagrange qui lui correspond: 


= 2 res + [) wE(r)-E*]+2,[ vw, 1] 


Pour trouver le minimum, nous devons égaler les dérivées premières 
de cette fonction par rapport aux wi et aux À; à 0. La solution donne 
alors les wi optimaux associés à E*. L’on insère ces wi dans la formule 
de l’écart-type, ce qui nous donne l’écart-type minimal associé à E*. 
On obtient un point de la frontière efficiente : (o*, E*). Et l’on refait 
cet exercice pour d’autres niveaux de E* de façon à générer toute la 
frontière efficiente. 


Notre propos est ici de formuler ce problème d’optimisation 
sous forme matricielle. En termes matriciels, la fonction de Lagrange 
précédente s’écrit : 


z=w Qw+A[w'E-E*]+a,[w"1-1] 


Les dérivées pour trouver le vecteur w* optimal associé à E* sont les 
suivantes : 


À _Ow+AE+À,1=0 
ow 

2 pE-Et-0 

À, 

ne 
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Pour mieux visualiser comment solutionner ce système d’équa- 
tions en termes des wi, concentrons-nous sur le cas d’un portefeuille 
qui ne comprend que trois titres. En termes matriciels, ce système 
s'écrit alors : 


26? 20 203 E, 1|w 0 
265 20: 26% E; 1|w: 0 
263 263 263 E; 1|w;|=| 0 
1 1 1 0 o|A 1 
E, EE, E, O0 OA] |[E* 


En termes plus compacts, ce système s’écrit comme suit: 


Cy =k 


où y est le vecteur des inconnues, soit les wi et les À. La solution 
s'obtient en inversant la matrice C: 


y=C'#k 


On obtient alors le vecteur w* associé à E*. On peut dès lors calculer 
le o* correspondant, ce qui nous fournit un point de la frontière 
efficiente : (o*, E*). On refait par la suite le même exercice pour 
d’autres niveaux de E* de manière à pouvoir tracer toute la frontière 
efficiente. 


6. À remarquer qu’il est très facile de construire une frontière efficiente sur Excel 
lorsque l’on dispose de la matrice variance-covariance des rendements des titres 
analysés en recourant aux fonctions matricielles PRODUITMAT (produit matri- 
ciel) et INVERSEMAT (inversion matricielle). En effet, le calcul de la frontière 
efficiente ne met en jeu que ces deux opérations matricielles. 
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4.3. Le modèle de l'erreur de suivi 
(tracking error) de Roll” 


Nous envisageons ici le cas du gestionnaire qui contrôle un fonds 
investi dans une catégorie d’actifs donnée. Il apparaît logique de mesurer 
sa performance par rapport à un indice de référence (benchmark) qui se 
compare bien à la composition dudit fonds. À cet effet, plusieurs 
maisons de courtage publient des indices de portefeuilles spécialisés. 
On peut alors comparer la performance d’un gestionnaire de porte- 
feuille à l’indice publié qui correspond le mieux à la composition de 
son portefeuille. 


Roll a proposé une telle comparaison dans un article publié en 
1992 dans le Yournal of Portfolio Management : « À Mean/Variance 
Analysis of Tracking Error >. Son but: est d’évaluer la performance 
d’un gestionnaire en le comparant au rendement d’un indice de réfé- 
rence (benchmark) apparenté au comportement du fonds géré par ledit 
gestionnaire. 


Mais avant de poursuivre, définissons un concept utilisé dans cet 
article : l’erreur de suivi ou tracking error. Cet indicateur traduit une 
déviation de performance. C’est la différence entre le taux de rende- 
ment périodique du fonds et le taux de rendement de l’indice de 
référence. Un critère pertinent pour évaluer un gestionnaire est la 
minimisation du tracking error, mais cette minimisation doit certes 
s'effectuer sous contrainte. Fixons au gestionnaire l’objectif suivant : 
minimiser la variance du tracking error sous la contrainte d’un certain 
écart positif de rendement relativement à l’indice de référence. 


La valeur espérée de l’erreur de performance (G) se définit 
comme suit: 


G=(q,-q») R=x'R 


où qp est le vecteur de pondération du portefeuille du gestionnaire 
vis-à-vis des N titres qui constituent le benchmark et qp, le facteur de 
pondération de ces titres à l’intérieur du benchmark. Dans le porte- 
feuille du gestionnaire comme dans le benchmark, la somme des pon- 


7. Roll, R. (1992), «A Mean/Variance Analysis of Tracking Error», Journal of 
Portfolio Management, Sammer 1992. 
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dérations des titres est égale à l’unité. Le vecteur x: de dimension 
(N X 1) représente des altérations de portefeuille qui s’autofinancent, 
c’est-à-dire : 

x!1=0 
où 1 est un vecteur (N x 1) d'unités et x, l’écart entre les vecteurs qp 


et qt. Finalement, R: (N x 1) est le vecteur des rendements anticipés 
des N titres. 


Fixons G à un niveau cible, soit à l’excédent positif de rendement 
imposé au gestionnaire en regard du benchmark. Soit (R, — Ri)* cet 
excédent-cible. On a donc: 


G=(R,-R;)* 


Soit à désigner par V la matrice variance-covariance des N titres 
en cause. La variance du #racking-error est donc: 


T T 
(d» db) V(Qq,-q)=x Vx 
Le problème d’optimisation auquel est soumis le gestionnaire est 
le suivant. Il doit minimiser la variance du tracking error : 


xTVx 
sous les deux contraintes suivantes : 


i) les réaménagements de portefeuille qu’effectue le gestionnaire 
par rapport au benchmark doivent comporter une espérance de 
gain G positive, ce qui correspond à la cible recherchée : 


xTR=G 
ii) les réaménagements par rapport au portefeuille de référence 
doivent s’autofinancer : 
xT1=0 
La fonction de Lagrange qui correspond à ce problème d’opti- 
misation est la suivante: 


xTVx+A]G-xTR]+2,[0-x7 1] 
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Pour trouver le vecteur x optimal, on égale les dérivées premières 
de la fonction de Lagrange par rapport à x et aux À; à 0. Si nous 
dérivons cette fonction par rapport au vecteur x et égalons cette 
dérivée à 0, nous obtenons: 


Mettons le vecteur x en évidence : 


Vx=[R 1] 
k 


En multipliant les deux côtés par V‘1, on obtient: 


li 
x= V''IR 1] 
L 


Pour trouver la solution, nous devons éliminer les deux multiplica- 
teurs de Lagrange. Pour y arriver, on multiplie les deux côtés de la 


dernière équation par le vecteur [R 1] : 


À 
[R 1] x=[R 1] V'IR 1] 
À; 


Nous remplaçons le terme de gauche par les dérivées de la 
fonction de Lagrange par rapport aux À;, qui sont égales à O dans la 
solution optimale. Ces dérivées correspondent évidemment aux con- 
traintes du problème d’optimisation. En effectuant cette substitution, 
on obtient : 
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En multipliant les deux côtés de la dernière équation par A7, on 
trouve finalement les valeurs des deux À recherchées : 


À, G 
= A 
À 0 


Et en se référant aux calculs précédents, on trouve l’expression 
de la matrice A: 


RTVIR R'V 1), la b 


R'V'1 1'V'1]) Lb c 
Le vecteur optimal x des réaménagements est le suivant: 


G 
x=V'[R 1]A' 
0 


On a donc trouvé les réaménagements du portefeuille de réfé- 
rence (benchmark) qui minimisent la variance du #racking error et qui 
assurent un rendement espéré positif G. 
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CHAPITRE 


4 


VARIATIONS SUR LES MODÈLES 
LINEAIRE ET NON LINEAIRE 
PARTIE I 


Dans ce chapitre, nous développons plusieurs thèmes rattachés au 
modèle linéaire général. Dans un premier temps, nous abordons les 
erreurs de spécification de la forme fonctionnelle et les tests qui s’y 
rattachent. Certains de ces tests font appel aux techniques d’estima- 
tion non linéaires: ces techniques seront donc introduites dans ce 
chapitre. Puis, nous nous penchons sur les critères de sélection des 
variables explicatives dans le modèle de régression et sur d’autres 
critères associés : critères d’Akaike, de Schwartz, test J, test RESET. 
Ensuite, nous considérons les variables dichotomiques (dummy) et les 
tests ayant trait aux changements structurels. 


1. ERREURS DE SPÉCIFICATION 


Nous abordons ici les erreurs de spécification de la forme fonction- 
nelle reliées au cas des variables explicatives omises. Supposons que le 
vrai modèle à estimer soit le suivant: 


y= Xp, +X,6;+e; 
alors que, par ignorance, on estime le modèle suivant: 


y=X/B+e 


oùe, = X,B, +e, - IID(0, o°l- ]: Quelles sont les conséquences de 


cette erreur de spécification sur l’estimateur des MCO ? En estimant 
par les MCO la dernière équation, on a: 
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1 
T 
=[x, x) X; (XB: + X2B> +e;) 
=i 1 
=B+[x'Xx;) X,'Xp,+(xX/'X;) X,'e; 
Calculons maintenant l’espérance de B, ; 
à SR 
e()-8+r)fx, X;) X; x: +0 
D Sr: 
= B, + (x; x;) X, X2B, |#B; 


De ces développements, il résulte que si l’on omet une variable expli- 
cative et si X, n’est pas orthogonal à X2 et B, 40, alors B, est biaisé. 


Examinons maintenant le cas où l’on ajoute trop de variables 
explicatives. Le vrai modèle est les suivant : 


y=XB;+e 
Or, on estime plutôt le modèle suivant: 
y= Xp, +X,6;+e; 
où €, = e2 puisque fB2 = 0. Appliquons les MCO sur le dernier modèle 


et dégageons-en les conséquences. 


*. 


B= (xx) (XiBi+e:) 
x 


B | [(XTX) xx +(XTX) XXe, 


, (X'x) x, "xp +(XTX) x, Xe, 
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A 


Calculons l’espérance de $ : 


puisque X2 est supposé orthogonal à X1, X2 n’apparaissant pas dans le 
vrai modèle. L’estimateur de f est donc sans biais. Cependant, il est 
inefficient parce que l’on sait que c’est le premier modèle qui est 
correctement spécifié. Ce problème est donc moindre que celui de 
l’omission de variables explicatives. 


Passons maintenant aux problèmes suscités par les erreurs de 
spécification sur la variable dépendante. Supposons que l’on ait estimé 
le modèle suivant: 


Ye = Bixt +ex 
alors que le vrai modèle est: 
In(y, ) =Bx, ter > y: = exp(Bx, +e2 ) = exp(Bx, Jexp(e.) 


En appliquant les MCO sur l’équation correspondant à la mauvaise 
spécification, on a: 


ê = (xx) XT exp(B,X)exp(e;) 


En calculant l’espérance de $, on a: 


E(B)=(X'x) X' exp(B:X)E(exp(e.)) 
= (xx) X' exp(B,X)exp = #6 


Nous recourons à certains résultats de la distribution lognormale pour 
calculer l’espérance de e2. Soit x = In(y), où x - N(0, o°). Alors 


=e? . La variance de y est par ailleurs 
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de V(y) - CARS 1) = a (e® 1). Une erreur de 


spécification sur la variable dépendante entraîne également un biais au 
chapitre de l’estimateur des MCO. 


2. TESTS RELIÉS AUX ERREURS DE SPÉCIFICATION 


2.1. Test sur la forme logarithmique 


On veut choisir l’un des deux modèles suivants : 


e = Bi +B2xx +B3x3 +ers 


In(y,)= Yi + Y2X2 + Y3X3t Er 


Box et Cox ont formulé un test pour discriminer entre ces deux 

modèles. Il faut d’abord exprimer le premier modèle en unités compa- 

rables au second. Pour ce faire, on calcule la moyenne géométrique de 
1 

Ye Ye =(y1Xy2X..xyr)r. On peut écrire une formule équiva- 

lente de la moyenne géométrique en exprimant cette dernière équa- 

tion sous forme logarithmique : 


n 
Enr. = ÿyg=el" . Ce résultat est utilisé pour 


calculer Le ie des carrés résiduels transposés en unités compa- 
rables à celles du deuxième modèle. On obtient, après application des 
MCO sur le premier modèle : 


Par ailleurs, en appliquant les MCO sur la deuxième équation, on a: 


» Tax 
SCRiL = ÊLL ÊLL 


On est maintenant en mesure de construire le test suggéré par Box- 
Cox en 1964: 
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T| SCR, /ÿ.°l: 
ee vel x’ (1) 
2 SCR:L 


La formulation du test est la suivante : 
HO : les deux modèles sont équivalents 
H1 : les deux modèles ne sont pas équivalents 


La première étape du test consiste à calculer la statistique 1. On rejette 
HO si 1 >L au niveau a. Dans une deuxième étape, on discrimine entre 


SCR 
les deux modèles. On choisit le modèle linéaire si : Te <SCR:;:: 


525 : : : ; YG 
On choisit le modèle logarithmique dans le cas inverse. 


2.2. La transformation de Box-Cox 


Le test précédent est plutôt restrictif car il nous limite au couple 
modèle linéaire-modèle logarithmique. La transformation Box-Cox 
s'avère beaucoup plus flexible, car elle nous laisse le choix entre plusieurs 
modèles, entre autres les modèles linéaire simple, logarithmique et 
beaucoup d’autres comme le modèle non linéaire. Pour effectuer une 
telle transformation, il faut reformuler les variables dépendantes et 
indépendantes comme suit. Supposons à cet effet le modèle suivant: 


Ye = Bi +B2xx +B3x3 +e, 
La transformation Box-Cox des variables de ce modèle est la suivante : 
à À À 
Q)_ yet, (a _xxzl  () xx cl 
Ye — 5 X24 — 5 X3t — 


À À À 


Cette transformation implique les relations suivantes pour y: 


yr 1 
À OO si kz0 
À 


In(y.) si À=0 
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Et ces relations valent également pour les xi. 


Démontrons ces relations. Pour ce faire on doit calculer la limite 
de l’expression suivante : 


dy 1) 
À 
… Vel. di 
us À dà 
dà 


Pour pouvoir effectuer ce calcul, on recourt à deux règles : la règle de 
l'Hôpital et une règle de dérivation. La règle de l'Hôpital s’écrit 
comme suit : 


où m(x) et n{x) sont des fonctions continûment différentiables. 


Par ailleurs, la règle de dérivation requise est la suivante. Soit la 
fonction : 


La dérivée de cette fonction est : 


df(.) b 
——"=In(x)x 
. n(x) 


On se sert de cette règle pour déterminer le numérateur de la règle de 


l'Hôpital : 


del 
D ns) 


La dérivée du dénominateur de la règle de l'Hôpital est triviale. Ces 
calculs impliquent que : 


lim yeIn(y.)=In(y,) 
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Précisons les diverses formes d’équations que peut accommoder la 
transformation Box-Cox. Si À = 1, on revient au modèle linéaire. Si 
x = 0, on a la forme logarithmique. Si À = 2, on a une forme quadra- 
tique. Et ainsi de suite. Ce modèle non linéaire s’estime par la méthode 
du maximum de vraisemblance. Il convient de souligner que pour les 
modèles non linéaires, les tests ne valent qu’asymptotiquement. 


On veut maintenant tester les deux hypothèses suivantes : 


H0:Xx=0 
H1:X40 
On construit le ratio t asymptotiquement normal: 
ee N(0,1). On rejette HO si: t > 1,96 pour a = 5 %. 


KE 


3. MÉTHODES DES MOINDRES CARRÉS NON LINÉAIRES 
ET TRANSFORMATION BoOx-Cox 


La méthode des moindres carrés non linéaires se présente comme 
suit. Soit le modèle de régression non linéaire suivant: 


Yt— f(x,,B)+e. 


Pour estimer le vecteur de paramètres b, on minimise : 
Ÿ 
MinS(B) = Min Ÿ (y. -f(x.8)) 
t=1 


Les méthodes non linéaires recourent à des algorithmes d’opti- 
misation. Nous présentons d’abord le plus connu, soit l’algorithme de 
Newton-Raphson, qui fait appel au processus itératif suivant : 


S(B.) 
S'(8.) 


Représentons à la figure 4.1 la procédure décrite par cette 
équation. 


Bas — B, — 
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FIGURE 4.1 


S(B) 


S(Bo) 


On veut trouver le minimum de S(f) qui correspond au point où 
S' B) =0. La procédure Newton-Raphson consiste à initier l’algo- 
rithme au point bg et à évaluer à ce point S(fB) et S’(B). Si S'(Bo ) > 0, 


S(Bo) 
TN 


0 


cela implique que > 0. Mais comme ce ratio est affecté d’un 
signe négatif, alors sur la figure 4.1 la direction sera vers la gauche. On 
obtient alors f1, que l’on remet dans l’équation précédente pour 
obtenir (2 et ainsi de suite jusqu’à ce que l’écart entre f, et fB:,1 soit 
très petit. 


La méthode de Newton-Raphson qui vient d’être présentée ne 
tient pas compte de la courbure de S(f). Une méthode qui en tient 
compte est celle de Newton. Cet algorithme s’écrit comme suit: 
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Cette équation est dérivée de l’approximation de Taylor. Dans cette 
expression, la courbure de S(fB) est évaluée par sa dérivée seconde. 


Envisageons ici le cas des moindres carrés linéaires!. Situons- 
nous à la première itération. La formule de Newton s'écrit alors: 


Lg _S(B) 
BB 


Il suffit alors de minimiser la somme des carrés résiduels : (y _ XB) 
(y - XB). Calculons les dérivées premières qui apparaissent dans la 


d(y-XB) (y-XP) 
0B 

22(y-XB) (y-X8) 
(2B)° 


mule de Newton s'écrit donc dans ce cas: 


formule itérative. S'(Bi) = =2X! (y — XB), soit 


les équations normales. S''(B) =2XTX. La for- 


B=B+(XTX) (xTy-xTXB,)=B: +6 -B; =Ê 


Pour les MCO, la méthode de Newton converge en une seule itéra- 
tion. La dérivée première représente la direction du déplacement et la 
dérivée seconde, l’accélération du mouvement’. 


Le problème relié aux calculs numériques est qu’ils s'avèrent 
intensifs en calculs. La méthode de Gauss-Newton vient pallier en 
partie à ce problème en évaluant la dérivée seconde par un produit de 
dérivées premières. Cette méthode s’écrit comme suit: 


Ba — B, pd, 


1. Hendry, D.F. (1995), Dynamic Econometrics, Oxford University Press, Oxford. 


2. Ou encore, elle tient compte de la courbure de la fonction à minimiser. 
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où d 


n 


ll dé 
— etp, = | ÿ _ 
dB, 2 | dB 


Pour illustrer la méthode Gauss-Newton et, par le fait même, les 
autres méthodes, supposons la régression non linéaire suivante, qui 
nous sert à estimer le coefficient f1°. 


2 
Yt =$ x;, +B X2 Ft 


Ce modèle est de la forme: y, = f(B)+e.. Cette équation fait appa- 
raître un produit de paramètres, c’est-à-dire que lorsque l’on mini- 
mise la somme des carrés résiduels, on n’obtient pas une forme 
explicite pour l’estimateur de f. Supposons en effet qu’on minimise 
S(B), qui est égal à: 


S(p) = y (y. —Pxie par) 


t=l 


En égalant la dérivée de cette fonction à 0, on obtient: 


dS . 
dB = 0 = DE —Bx.. px, J(-x — 2fx;, |] 0 
t=1l 


On remarque qu’il n’y a pas de solution analytique pour 6. On doit 
donc recourir aux méthodes numériques pour trouver une solution 
pour 6. Dans ce cas-ci, f,, qui apparaît dans l’algorithme de Gauss- 


.. df 
Newton, est égal à: f, =fBx,, +B°x,,. D'où: 2. = X1, +2Bx,,, ce qui 


est requis pour le calcul de p,. Finalement, d, est égal à la dérivée de 
S par rapport à B évalué à B:. Par conséquent, le processus itératif est 
le suivant: 

À 


if dS 
=6, -| | Y' (x +2Bx2,) || | — 
Bi B, 2 (su Bx.) dB 3 


3. Cet exemple est emprunté à: Griffiths, W.E., C. Hill et G.G. Judge (1993), 
Learning and Practicing Econometrics, John Wiley, New York. 
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Une autre application des moindres carrés non linéaires est d’estimer 
la transformation Box-Cox du modèle de régression suivant de la 
demande de monnaie aux États-Unis : 


In(M,)= B: +B;r 0) +8,70) +e: 


où M. est la masse monétaire américaine au sens de M2, r;, le taux 
d’escompte de la Réserve fédérale américaine et y, le produit national 
brut en dollars constants. Pour estimer les paramètres de cette équa- 
tion, on applique les moindres carrés non linéaires. Les hypothèses à 
tester sont les suivantes: H0:À =0; H1:A +0. Pour ce faire, il faut 
construire la statistique t qui obéit asymptotiquement à la distribution 
normale. On rejettera HO si le t calculé est supérieur au seuil critique 
donné par la loi normale. 


Jusqu'ici, à l’intérieur de la présentation des méthodes numé- 
riques, nous n’avons envisagé que le cas univarié. Le cas de la régression 
de Box-Cox en est cependant un où il existe plusieurs paramètres à 
estimer. La formulation générale du modèle de régression non linéaire 
multivarié est la suivante : y, = il ,B)+ e.. Pour le cas de la régres- 
sion Box-Cox: B1 = [6 B> B; à]. Pour estimer ces para- 
mètres, l’algorithme d’optimisation requiert l’évaluation 


1 
2S | os CN 2S 95 
9B [dB dB, dB, d 
qui est un vecteur de dérivées premières. Dans le cas multivarié, pour 
utiliser les algorithmes de Newton-Raphson, de Gauss-Newton ou de 


Newton, il suffit donc simplement de remplacer les dérivées simples 
par les dérivées partielles. 


. Ce vecteur est appelé: gradient, 


À titre d'exemple d’une régression non linéaire, considérons un 
modèle de détermination de la structure à terme des taux d’intérêt. Ce 
modèle, associé à Haugen (1993)’, relie le rendement des obligations 
américaines à leur échéance, de façon à déterminer la courbe de leur 
structure à terme. Cette équation est la suivante : 


yi=(a+asti)e #5 +a, 


4. Voir Greene, W.H. (2000), Econometric Analysis, Prentice Hall, New York. 


5. Haugen, R.A. (1993), Modern Investment Theory, troisième édition, Prentice Hall, 
New York. 
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où y; est le rendement à l’échéance de l’obligation de catégorie i, ti, 
l'échéance correspondante de cette obligation et ai, les divers coeffi- 
cients qui servent à ajuster la courbe. Cette régression est à l’évidence 
non linéaire. Les paramètres a1 à a4 sont estimés par le logiciel Eviews 
par la méthode des moindres carrés non linéaires. Il faut bien sûr fixer 
des valeurs de départ (seed values) pour les coefficients a1 à a4. Les 
commandes pour effectuer cette régression sur EViews apparaissant 
au tableau 4.1. 


T'ABLEAU 4.1 


smpl 1 50 

Estimation de la courbe des rendements à l'échéance à partir de yldf et tm 
" Déclaration des paramètres de départ: 

PARAM c(1) -.49 c(2) .1 e(3) .1 c(4).1 

NLS vld=((e(1)+c(2)*tm)/exp(c(3)“tm))+c(4) 


Les coefficients estimés par NLS sont les suivants : a1 = 45,96; 
a2 = —0,6285 ; a3 = 5,5842 ; a4 = 0,0783. La représentation graphique 
de la structure à terme observée un 13 mars pour les obligations 
fédérales américaines de diverses échéances et de la structure à terme 
estimée apparaît aux figures 4.2 et 4.3. 


6. yld désigne le rendement à l’échéance et tm, l’échéance. 
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FIGURE 42 Structure à terme observée 
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FIGURE 4.3 Structure à terme estimée 
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4. CRITÈRES DE SÉLECTION 
DES VARIABLES EXPLICATIVES 


Dans cette section, nous abordons les différents tests statistiques qui 
servent à vérifier les modèles théoriques. Rappelons d’abord rapide- 
ment les différents tests examinés jusqu'ici pour la même fin. Nous 
avons étudié le test t, servant à tester un seul paramètre dans sa 
présentation classique, le test F, servant à tester un sous-ensemble ou 
l’ensemble des paramètres d’une régression, et le R? ajusté, qui sert 
également à évaluer l’ensemble des paramètres d’une régression. 


Il convient maintenant de présenter d’autres critères classiques 
pour sélectionner les variables explicatives d’un modèle. Dans la même 
veine que le critère du R? ajusté, les critères d’information d’Akaike et 
de Schwartz visent également à évaluer le degré d’ajustement d’un 
modèle tout en tenant compte de l’ajout de nouvelles variables expli- 
catives. Le critère d’Akaike pour le modèle i, désigné par AIC;’, se 
définit comme suit : 


SCR.\ _k. 
+ 


où SCR: est la somme des carrés résiduels du modèle i ; T°, la taille de 
l'échantillon ; k;, le nombre de variables explicatives. On est confronté 
à plusieurs modèles et celui qui minimise le critère AIC est celui qui 
sera retenu. À l'instar du R? ajusté, ce critère prend en compte le 
nombre de degrés de liberté. En raison de la présence du logarithme, 
ce critère peut donner lieu à des nombres négatifs. On choisit alors le 
modèle qui comporte l’AIC le plus faible. Un autre critère, celui de 
Schwarz, désigné par SC ou SBCŸ, se définit comme suit: 

SCR; | É (r) 

T 


Le critère SC s’interprète de la même façon que le critère AIC, c’est- 
à-dire que l’on choisit le modèle qui minimise le critère SC. Le critère 
SC comporte des propriétés asymptotiques supérieures au critère AIC. 
Le critère AIC est biaisé en faveur des modèles surparamétrisés. 


7. Abréviation de Akaike information criterion. 
8. Abréviation de Schwarz criterion (SC) et de Schwarz Bayesian Criterion (SCB). 
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Le test J 


Le test J proposé par Davidson et McKinnon’ tire son appellation de 
l'expression anglaise jointly estimating. Si les critères de décision pré- 
cédents favorisent un modèle, il n’en reste pas moins que la procédure 
suivie est plus ou moins rigoureuse. Une procédure plus satisfaisante 
consiste à tester conjointement (simultanément) deux modèles con- 
currents. Le test J est alors tout désigné. 


La procédure du test J est la suivante. On veut tester les deux 
hypothèses. H0: y =XB+e, contre H1: y=Zy+e,. Théorique- 
ment, on teste ces hypothèses en recourant à la stratégie du nesting, 
que l’on peut traduire par «stratégie de l’imbrication >, pour écrire la 
relation suivante : 


y=(1-a)XB+aZy+e 


Tester HO revient à vérifier si « = 0. En pratique, le test, qui fait appel 
à la technique des régressions artificielles, s'effectue en trois étapes: 
i) régresser y sur Z. On obtient: ÿ* = ZŸ ; ii) régresser y sur X et ÿ* 

y = XQ + aÿ * + €. On obtient & ; iii) on construit le test t asympto- 


A 


à d 
tique: t= Ra On rejette HO si la valeur absolue de t 
V(d 


excède la valeur critique. 


Le test RESET 


Par ailleurs, le test RESET, qui est l’acronyme de l’expression anglaise 
REgression Specification Error Test, est, comme son nom l'indique, 
un test général d’erreurs de spécification, par exemple les erreurs 
omises ou les erreurs de forme fonctionnelle. Pour effectuer ce test, 


9. Davidson, R. et J. McKinnon (1981), « Several Tests for Model Specification in 
the Presence of Alternatives Hypotheses », Econometrica, 49, p. 781-793. 


10. Ce test est redevable à Ramsey, J.B. (1969), « Tests for Specification Error in 
Classical Linear Least Squares Analysis», Journal of the Royal Statistical Society, 
Series B, 31, p. 350-371. Voir aussi: Ramsey, J.B. et P. Schmidt (1976), « Some 
Further Results on the Use of OLS and BLUS in Residuals in Specification 
Error Tests», Journal of the American Statistical Association, 71, p. 389-390. 
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on suit la procédure suivante. On veut tester si le modèle y = XB+e, 
où e - N(0, o’T), est spécifié correctement. Ce test comporte trois 
étapes : i) on applique d’abord les MCO sur cette équation et on 
obtient ÿ = X$ ; ii) on écrit la régression suivante: 


y = X0+Y,ÿ" +Y2ÿ° +73ÿ° +u 


où u - N(0, 0/1). On applique les MCO sur cette équation pour 
obtenir les 8 et les Ÿ ; iii) on construit la statistique F pour tester les 
hypothèses suivantes en supposant que le vecteur q comporte trois 
paramètres : HO : RB = r contre H1: Rfzr, soit: 


6; 
6; 
0 0 0 1 0 0 0 
6; 
RB=I0 0 0 0 1 O0 =|0 
Yi 
0 0 0 0 0 I 0 
Y2 
V3 
Le test F s'écrit: 
SCR, —-SCR:, / 
lt SP PE DE à 


SORTE 


où q est égal au nombre de restrictions, 3 dans le cas qui nous inté- 
resse, et k, le nombre de paramètres à estimer, est égal à 6. SCRè est 
la somme des carrés résiduels du modèle contraint (y = 0) et SCRv est 
la somme des carrés résiduels du modèle non contraint (y 4 0). On 
rejette HO si F est supérieur au F critique. Si ce test rejette l’hypothèse 
HO, cela indique la présence probable d’une erreur de spécification au 
chapitre du modèle. Mais le test reste muet sur l’identité de l’erreur de 
spécification. 
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5. VARIABLES AUXILIAIRES ET MODÉLISATION 
DES CHANGEMENTS STRUCTURELS 


La théorie des options s’est énormément développée depuis que Black 
et Scholes ont présenté leur fameux modèle sur la détermination du 
prix d’une option d’achat européenne en 1973. Depuis cette époque, 
les catégories d’options se sont démultipliées. Elles ont même débordé 
le secteur financier pour envahir le secteur réel. À titre d'exemple, il 
existe plusieurs catégories d’options dans le secteur de l'énergie tels 
les caps sur le prix de la gazoline. Il est donc important dans cas de se 
donner un modèle de fixation du prix de la gazoline qui représente ici 
le sous-jacent du cap. Examinons comment l’économétrie peut nous 
aider à définir un tel modèle. Cet exemple nous sert également de 


prétexte pour introduire les variables auxiliaires!!. 


Supposons à cet effet un modèle très simple de dépenses en 
gazoline définies en fonction du revenu et du prix, les deux premières 
variables étant définies sur une base réelle et per capita. Le modèle se 
présente comme suit : 


Indep, =B,+B;iny,+B;lnp.+e. E=1930,:,1970 


où dep. représente les dépenses en gazoline, y:, le revenu et p;, le prix 
de la gazoline. Nous savons que de 1939 à 1945, il y eut une guerre 
mondiale qui s’est traduite par une diminution marquée des dépenses 
de consommation, entre autres de la gazoline. Durant cette période, les 
paramètres de la fonction des dépenses en gazoline se sont modifiés. 
Une façon de capter ce changement est d’introduire dans le modèle 
une variable auxiliaire. Les variables de cette catégorie sont du type 
dichotomique ou binaire qui, dans notre cas, prend la forme suivante: 


1 si la caractéristique est présente 
0 sinon 
Dans le cadre de notre modèle, D = 1 si t = 1939,..., 1945 et D = 0 


ailleurs. Cette variable s’introduit comme suit dans notre modèle de 
régression : 


Indep, =6;,+B,.Iny, +B;,inp,+e, t=1920;..,1970 


11. Qui sont désignées par dumrmies en anglais. 
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Ce modèle est dit à coefficients variables où $,, =B, +ôD, et 
B:. =B; +7YD,. Pour simplifier, nous supposons que: B;, =B,. Ce 
modèle est représenté à la figure 4.4 en fixant p au niveau constant p. 


FIGURE 4.4 


(1) 
In (dep) 
A 


: Î G) 


In (y) 


(1): Efindep) = bi + bin y +b;lnp 
@): Elindep) = b; + d+b2lny+b;lnp 
G): Elndep) = bi + d + (b2 + g) In y + b3lnp 


On peut tester les hypothèses suivantes : 1) HO: y = 0 contre H1 : 
y #0; üi) H0: ô = 0 contre H1 : à Z 0; 


Ô 0 Ô 0 
ii) H0:| |= contre H1:| |Z4| |. Le premier test concerne le 
Y] LO Y] LO 
changement de la pente de la droite de régression. Ce test peut être 
effectué à l’aide d’un test t standard. Il peut être formulé comme suit : 
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t= —— - t(T- 5), en supposant certes que les résidus sont nor- 


malement distribués. 


Le second test concerne le déplacement parallèle de la droite de 
régression. C’est là le test classique d’un changement structurel. Si 
l’on rejette HO, il y a alors ici diminution des dépenses en période de 
guerre. À l’instar du premier, ce test peut aussi s’effectuer par le test 
t. Finalement, le troisième test est le F de Fisher. Cette statistique se 
construit comme à l’accoutumée, en faisant appel aux résidus con- 
traints et non contraints. Ce test sert à vérifier les hypothèses con- 
jointes d’un déplacement parallèle et d’un changement de pente. 


Le cas suivant sert également à utiliser l'emploi des variables 
instrumentales. Il consiste à estimer l’impact de certains jours de la 
semaine sur le cours des actions. Comme on le sait, les cours des 
actions a tendance à baisser systématiquement le lundi. Pour tester cet 
effet, on recourt à l’équation suivante associée à Connolly (1989)! : 


Te — Bo +B;m, +B:T. +B;th, Fit, +e: 


où r. désigne le rendement journalier de l’indice Standard & Poor’s 
500 pour les années 1972 et 1973 ; m,, T',, th, et f, sont des variables 
auxiliaires qui identifient respectivement les jours suivants: lundi, 
mardi, jeudi et vendredi; et e. est le terme d’erreur. Pour générer les 
variables auxiliaires, nous avons effectué en recourant au logiciel 
EViews le programme apparaissant au tableau 4.2. 


12. Connolly, R.A. (1989), «An Examination of the Robustness of the Weekend 
Effect», Journal of Financial and Quantitative Analysis, juin, vol. 24, n° 2. 
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T'ABLEAU 4.2 


smpl 1 503 
genr m7/2=0 
genr t/72=0 
genr w7/72=0 
genr th/72=0 
genr f72=0 


" Debut de la boucle for 


for !i=0 to 502 


if day72(li+1)=1 then 
genr m7/2(li)=1 

else 

genr m7/2(!i)=0 

endif 

if day72(li+1)=1 then 
genr t/2(li)=1 

else 

genr t72(li)=0 

endif 

if day72(li+1)=1 then 
genr w72(li)=1 

else 

genr w72(li)=0 

endif 

if day72(li+1)=1 then 
genr th72(li)=1 

else 

genr th72(li)=0 

endif 

if day72(li+1)=1 then 
genr f72(li)=1 

else 

genr f72(li)=0 

endif 


next 


En appliquant les MCO à l’équation précédente, on obtient les 
résultats apparaissant au tableau 4.3. 
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T'ABLEAU 4.3 


LS// Dependent Variable is LOG(SP50072/SP50072(-1))*100 
Date : 12/13/99 Time : 21:54 

Sample (ajusted) : 2 503 

Included observations : 502 after adjusting endpoints 


Variable Coefficient Std. Error  t-Statistic Prob. 
C 0.043659 0.080335 0.543455 0.5871 
M72 —0.319821 0.117947 -2.711565 0.0069 
T72 0.028880 0.114167 0.252962 0.8004 
TH72 0.015556 0.113887 0.136589 0.8914 
F72 —0.017636 0.113887  -0.154857 0.8770 
R-squared 0.023408 Mean dependent var —-0.008239 


Ajusted R-squared 0.015548 S.D. dependent var 0.825708 
S.E. of regression 0.819264  Akaike info criterion —0.388788 


Sum squared resid 833.5829 Schwarz criterion —0.346770 
Log likelihood —609.7212 F-statistic 2.978156 
Durbin-Watson stat 1.562695 Prob(F-statistic) 0.018937 


On observe au tableau 4.3 que seule la variable m, dont le 
coefficient estimé est de —-0,3198, est significative avec une p-value 
égale à 0,0069. On vérifie donc que, parmi les jours de la semaine, seul 
le lundi présente une anomalie. Les rendements boursiers n’auraient 
donc tendance à diminuer que le lundi. Cependant, il semble que 
cette anomalie ait eu tendance à se résorber par la suite. 


Le test de Chow 


Ce test, issu de Chow!?, vise à vérifier la stabilité des paramètres d’une 
régression. Supposons le modèle suivant: 


vr=B'x,+te, t=1,.,T 


où x sfr Rs xx J: Le test de Chow consiste, 
dans le cadre de ce modèle temporel, à séparer l’échantillon en deux: 


13. Chow, G.C. (1960), « Test of Equality between Sets of Coefficients in Two 
Linear Regressions », Econometrica, 52, p. 211-222. 
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1) la première partition s’étire du début de l’échantillon jusqu’à la date 
du changement structurel ; 2) la deuxième partition a trait à l’échan- 
tillon observé après la date du changement structurel. On effectue une 
régression sur chacune de ces deux sous-périodes et sur l’ensemble de 
la période, soit la somme des deux sous-périodes. Le test F se formule 
alors comme suit : 


(SCR+ -(SCR, +SCR,))/k 
(SCR; +SCR,)/T -2k 


où SCRr est la somme des erreurs résiduelles sur l’ensemble de 
l’échantillon ; SCR:, la somme des erreurs résiduelles sur la première 
sous-période et SCR, la somme des erreurs résiduelles sur la deuxième 
sous-période. 


On retrouve un test de Chow appliqué à un exemple financier 
dans Mills (1999), Il vise à vérifier la stabilité des paramètres de 
l'équation du CAPM en faisant appel à des statistiques corporatives. 
Un extrait de son étude apparaît au tableau 4.4, où NONLIN signifie 
RESET ; NORM: Jarque-Bera; et HET: test d’hétéroscédasticité. 
Prenons le cas de Citicorp. La régression suivante de l’équation de la 
SML est estimée pour cette compagnie sur des données mensuelles de 
janvier 1978 à décembre 1987. 


Li —Tf = oœ+Br..-r:]+e. 


où ri. désigne le rendement de la compagnie i, ici Citicorp; r# est le 
taux sans risque ; fr, Le taux de rendement du marché et e.est le terme 
d’erreur. On veut tester la stabilité conjointe des coefficients « et f. 
Selon le CAPM, a doit être égal à 0 et B doit demeurer constant dans 
le temps. Pour effectuer le test de Chow, on fixe le point de rupture 
à décembre 1984. On divise donc l’échantillon en deux parties, soit de 
janvier 1978 à décembre 1984 et de janvier 1985 à décembre 1987. On 
effectue des régressions sur l’ensemble de l’échantillon et sur ses deux 
partitions et on calcule la somme des carrés résiduels pour ces trois 
régressions. On obtient: 


14. Mills, T.C. (1999), The Econometric Modeling of Financial Time Series, deuxième 
édition, Cambridge University Press, Cambridge. 
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(SCRr -(SCR; +SCR;))/k ’ 
(SCR, +SCR;)/T -2k 


Ce test est significatif au niveau de 5 %. On rejette l’hypothèse nulle 
de la stabilité du f d’un sous-échantillon à l’autre. L'auteur effectue 
également d’autres tests sur cette équation, dont le test RESET que 
nous avons déjà présenté. Ce test vise ici à tester la forme fonction- 
nelle de l’équation de la SML. Sous HO: le modèle est bien spécifié. 
Et sous H1 : le modèle est mal spécifié. La valeur du test RESETS est 
ici de 0,40, ce qui donne à penser que le modèle est bien spécifié. On 
retrouve ce test au tableau 4.4. 


Le test de Chow présente le désavantage suivant. Dans certains 
sous-échantillons, il est possible qu’il y ait une pénurie d’observations 
puisque le point de rupture peut séparer l’échantillon total en deux 
partitions très inégales. Le test de Chow (predictive) corrigé par Fisher 
en 1970 vient pallier ce désavantage. Ce test s’écrit comme suit: 


| a Ta L ec ints)!6 sur l’ 
où + 6: est la somme des carrés résiduels (contraints)"® sur l’ensem- 

' : AT A are 
ble de l’échantillon (SCRr) et 8 e, la somme des carrés résiduels 
(non contraints) définie sur le sous-échantillon qui comporte le plus 


grand nombre d’observations. 


15. Pour effectuer le test RESET,, on a régressé les résidus de léquation de la SML 
sur (rn — rs) et (r; — r)° estimés. 

16. La contrainte étant que les paramètres sont identiques à travers l’ensemble de 
léchantillon. 
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CHAPITRE 


5 


VARIATIONS SUR LES MODÈLES 
LINEAIRE ET NON LINEAIRE 
PARTIE II 


Dans ce chapitre, nous introduisons d’abord la théorie asymptotique 
et les tests s’y rapportant: LM, LR et Wald. Puis nous examinons les 
problèmes causés par la multicollinéarité au chapitre des variables 
explicatives. Finalement, nous nous penchons sur le phénomène de 
l’endogénéité des variables explicatives. 


1. THÉORIE ASYMPTOTIQUE : CONVERGENCE, TESTS 
ASYMPTOTIQUES ET VARIABLES INSTRUMENTALES 


1.1 Convergence 


La théorie asymptotique est maintenant à ce point avancée que la 
plupart des propriétés linéaires et non linéaires des estimateurs et, 
partant, des tests, font appel à cette théorie. Les propriétés des 
estimateurs reliés aux petits échantillons sont beaucoup moins con- 
nues même si, ces dernières décennies, il s’est produit une grande 
amélioration au chapitre des techniques de travail empirique en 
matière d'évaluation de ces propriétés!. Il existe quatre modes de 
convergence. 


1. On pense ici par exemple à l’utilisation beaucoup plus poussée de certaines 
techniques de simulation de type Monte Carlo et hootstrapping et des méthodes 
de réduction de la variance. 
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La convergence en probabilité. C’est le mode de convergence le 

plus connu. Elle se définit comme suit. Supposons un 

estimateur 8. de 8. On dit que l’estimateur 6.. converge en 
P 


probabilité vers 8, c’est-à-dire: êr 6, si: 


lim Pr[lô -e|< e| =] 
T0 

au fur et à mesure que la taille de l’échantillon devient impor- 
tante. Une notation plus compacte de ce mode de conver- 
gence fréquemment utilisée dans la littérature est la suivante : 


plimé- =6 


Les conditions suffisantes pour vérifier la convergence asymp- 
totique en probabilité sont les suivantes, en termes de l’espé- 


rance et la variance de 8: E (6) =6 et V (êr) = 0. 
To T0 
Sous certaines conditions très générales, on peut vérifier la 


convergence asymptotique en probabilité seulement en cal- 
culant l’espérance asymptotique. Pour un traitement rigou- 
reux de ce dernier sujet, on consultera White (1984). Et 


pour une application de ce concept, on se reportera à : Racicot 
(2000). 


La convergence en moyenne quadratique. On dit qu’un estimateur 


À Im. 


6. converge en moyenne quadratique vers q, i.e. 0+ — 6, 
Si : 


T0 


lim EP af =0 


Ce mode de convergence est plus fort que celui de la conver- 
gence en probabilité. En effet, si les conditions antérieures 
ayant trait à l’espérance et à la variance asymptotique sont 


2. White, H. (1984), Asymptotic Theory for Econometricians, Academic Press, New 


York. 


3. Racicot, F.-É. (2000), Estimation et tests en présence d’erreurs de mesure sur les 
variables explicatives : vérification empirique par la méthode de simulation Monte 
Carlo, Centre de recherche en gestion, série Finance empirique et quantitative, 
document de travail CRG-09-2000. 
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x Mas. A 

respectées, alors 8.- — 6. Il s'ensuit que: plimO- = 8, soit 
ep 

en notation courante: 0 —8 ; 


iii) la convergence quasi sûre (almost sure, abrégé pas à.s.). On a ici 
la forme de convergence la plus forte. On dit qu’un esti- 


K a.s. 


mateur 8 converge de façon quasi sûre vers q, i.e. 0. —0, si: 
Pr) lim (êr = o)| =1 
To 
iv) la convergence en distribution 


Supposons deux séries : êr et q. Une série êr converge en 
distribution vers une série @ si la fonction de distribution fr 
de 6. converge vers la distribution f de 8 pour chaque point 
de f. Par exemple, supposons un estimateur 6 de 6. La 


notation utilisée pour montrer que CA -0) converge par 
exemple en distribution vers une normale d’espérance nulle 


. d 
et de variance o? est la suivante: (+ -8)-N(0,0°). 


En résumé, établissons la structure hiérarchique des modes de 
convergence. Elle s’établit comme suit* : 
m.s.— pd 
et as. —p 


Exceptionnellement, on peut observer : 
d=p 


Concluons cette section en précisant qu’un estimateur sans biais 
n’est pas nécessairement convergent. En effet, l’une des conditions 
pour la convergence en probabilité est que la variance asymptotique 
soit nulle. Supposons que l’on ait le modèle de régression suivant: 


y=c+e 


4. Voir à cet effet: Amemiya, T. (1985), Advanced Econometrics, Harvard University 
Press, Cambridge. 
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où e est une variable aléatoire de moyenne nulle et de variance cons- 
tante et la corrélation entre ses valeurs est constante et égale à p, ce 
qui peut se représenter par : 


lp pP P 

p 1 p P 

p p ll P 
Q = 

Pp Pp pP 1 


La matrice X est ici égale à un vecteur colonne dont toutes les com- 
posantes sont égales à 1, ce qui implique que l’estimateur des MCO de 
c est y. En insérant Q dans la formule de la matrice variance-cova- 
riance de $, ici c, estimé à partir du modèle de régression généralisé, 
On a: 


ne PT a (dee st 
V()=— - x) EE ox) KT x) 


2 


V(F)=(1-p+Tp) 


Si l’on prend la limite de cette expression, on obtient: po*. Dans cet 
exemple, l’application des MCO en présence d’autocorrélation fournit 
un estimateur sans biais mais non convergent puisque la variance 
asymptotique n’est pas nulle. L’autocorrélation est en effet fort pro- 
noncée dans cet exemple. Dans les modèles de séries temporelles, on 
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exige que la corrélation entre les observations diminue au fur et à 
mesure que la distance entre celles-ci augmente. Ici, certe, cette 
condition est violée. 


1.2. Tests asymptotiques: LR, LM et Wald 


1.2.1. Test du ratio de vraisemblance: LR 


Le terme LR est l’abréviation anglaise de Zkelihood ratio. On veut 
tester l'hypothèse HO: RB = r contre H1: R$ 4 r.R est une matrice 
de dimension (q X k), où q < k, et r est un vecteur de dimension 
(q X 1). De manière à effectuer ce test, on doit obtenir la valeur 


estimée de la fonction de vraisemblance non contrainte : LB, 6!) ét 


sa valeur contrainte : LÊx; où | Le ratio de vraisemblance se définit 
comme suit : 


L(Br , 68 ] 
L(B,é*) 
Intuitivement, on s’attend à rejeter l’hypothèse nulle si X est faible. Le 


test asymptotique général se formule comme suit: 


a 


LR=-2Int = 2in1(6,6?)-In L(Bx 6 -x(q) 


où L(B6t)=(2re) 2 (67) : = {EH} * {ere à esex(ere) 2 


Le maximum de vraisemblance contraint est obtenu en maximisant la 
fonction suivante : 


F=/-uT(RB-r) 
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où u est un vecteur de dimension (q X 1) de multiplicateurs de 
Lagrange et #, le logarithme de la fonction de vraisemblance, c’est-à- 
dire: 


£= Inf(y1,Y2..yn[X) = Inf(e,,e,..,e,) 


T T 1 T 
= nine no? = {y X =2X 
2 F0 2 ° ze D'OR) 


On peut montrer que BR est simplement le vecteur contraint obtenu 
des MCO satisfaisant l’équation : RB£% = r. Les résidus qui en résul- 
tent sont les suivants: êg =y-XBR. Le MV contraint de o° est: 


6% = êrêr / T. Par conséquent, la fonction de vraisemblance est: 


T 


à 12 AT A Fa 
L(Br ,OR = cste X EC ] 2 


A 


En substituant L{Br; ôt) et LB, 6) dans LR, on obtient: 


on 
LR = T(Inêté, —-Iné'é)= Tin] 1+ °° 
€ € 
1 
= Tin] _érêx -ê"e 
CAC 


Cette équation exige donc d’estimer les modèles contraint et non 
contraint. On peut également considérer le test LR comme une trans- 
formation du test F: 


1 T 
LR = TIn|1+ xqF|= qF 
T-k T-k 
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1.2.2. Test de Wald 


Dans le test de Wald, seul le modèle non contraint est estimé alors 
que pour effectuer le test LR, il fallait estimer les modèles contraint et 
non contraint. Le test de Wald s'écrit comme suit: 


Dans la première égalité de cette expression, le vecteur [RÉ = r) nous 
indique si l’estimateur du maximum de vraisemblance non contraint 
est rapproché ou éloigné de r, associé à l’hypothèse nulle. Si [RÉ — r) 
est voisin de O0, cela implique que l'hypothèse nulle ne sera pas rejetée. 
À l'opposé, si [R-r) est élevé, cela milite en faveur du rejet de 
l’hypothèse nulle. 


Par ailleurs, on remarque dans la deuxième égalité que les erreurs 
contraintes interviennent dans le test de Wald. Cela est attribuable à 


+ 
Au ë 
la relation suivante: êlèr -è'è= [R$- r) R' [x°x) Re 
[R6 — ‘ Par conséquent, le test sur les contraintes peut être effectué 
en faisant la régression non contrainte et en substituant la valeur de B 
dans la première égalité. Alternativement, une régression contrainte 
peut être estimée et le test portera sur la différence êlêr -é'ê. B est 
asymptotiquement distribué comme une NBI 1(B)), où I est la 
matrice d’information. Sous HO, RB - r est asymptotiquement distri- 
bué comme une loi normale multivariée de moyenne 0 et une matrice 
nl 
. , - 7 2(yT 
variance-covariance RI '(B)R", où L'(B) = © (x x) . Soit, en 


A a # 
notation standard : [RÉ _ r)- N(0, RI ! (B)R" IÉ Elaborons davantage 
sur la matrice dite d’information. Cette matrice peut se calculer comme 
suit : 
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1 T 
B\ (x) 0 
I(8)=1] |=|° 
- ‘a 
0 = — 
20° 


Puisque cette matrice est diagonale, l’inverse de cette matrice est donc 


de : 
B o'{x'x) 0 
I'(8)=1" | 4 
à cs 
T 


Etant donné que cette matrice est diagonale, on peut se concentrer 


sur la partition reliée à B et écrire que: 
sh à a 

[R-r) [RT'(B)R"| [Rô-r)-x2 (a). La distribution asympto- 

tique vaut encore quand o? est remplacé par sa valeur estimée : 


=——. Il en résulte la statistique W présentée antérieurement: 


ue 
k —1 
(Rô-r) |R(x Ex) rt | [R$-r) 
W = = 


1.2.3. Test LM? 
Le test LM, aussi connu sous le nom de test score, se formule de la 


façon suivante : 
a 
T{82r-1f{À2 A2 2 
LM=ST(6?)11(62 )s(ê )-x2(a) 
où 62 représente l’estimateur contraint et S(8), le vecteur score. À 
l'inverse du test de Wald, on n’a ici qu’à calculer l’estimateur con- 


traint. Le vecteur score : 
5. LM est l’abréviation anglaise de Pexpression Lagrange Multiplier Test. 
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L 1 
a Xe 
S(e)= =| © 
) dL T : ele 
06° 6? 26° 


1 


TA 
s(ôx )- GE X er 


0 


Expliquons le calcul du deuxième élément de ce vecteur. En effet: 


T êlêr SR à 
7522 F 22 22 a. 
268 êlêr 268 268 
2 
T 


En substituant ces calculs dans l’expression de LM, on obtient: 


Gi(X'X) 0 


EX 
LM=| © 0 _—. 
OR 0 OR 
T 
FES : 
X 6x) erx(x'X) x'ê, 
si 
T Ty\lwT: 
_ TeixX(x X) x'ê, ee. 
êrêr 


6. Fournissons une interprétation intuitive de ce résultat qui a déjà été démontré. 
La matrice X(XTX/-IXT effectue une projection dans l’espace des résidus expli- 
qués. Le numérateur est donc la somme des carrés expliquée. En divisant cette 
somme par la somme des carrés résiduelle, on obtient R7. 
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En termes de résidus, la représentation du test LM est de: 


T(érèr -è"é) 


TA 
€ER€R 


LM = 


Enfin, on peut montrer que les tests asymptotiques de Wald, du ratio 
de vraisemblance et du multiplicateur de Lagrange sont reliés comme 
suit: W2>LR>LM. Ces tests sont asymptotiquement équivalents, 
mais en général, ils diffèrent dans les petits échantillons. 


1.2.4. Variables instrumentales et estimation 


: : .… 
Dans cette section, on s'intéresse au cas où: plim—X'e#0. On 
T 


pense ici à une situation où les X ne sont pas orthogonaux aux e, c’est- 
à-dire dans le cas où, par exemple, les X sont stochastiques et sont 
corrélés avec les e. Pour traiter ce problème, on recourt aux variables 
dites instrumentales. Supposons le modèle de régression linéaire sui- 
vant: 


Y =XfB+e 


où l’on suppose que E(XTe) # 0. Une matrice de variables instrumen- 
tales Z se définit par les deux critères suivants: i) les variables incluses 
dans Z sont à la limite non corrélées avec les résidus e, c’est-à-dire : 


À je | 
plim—Z le = 0 ; ii) les variables incluses dans Z sont corrélées avec 
T 


.. nd . : 
X et, à la limite: plim—Z'X=X,,, cette dernière matrice étant 
dL 


finie et de plein rang”. L’estimateur des variables instrumentales IV 
s'obtient par la procédure suivante : i) on régresse d’abord X sur Z, 


d’où on obtient: X = ZB = z(z'z) zx; ii) on régresse par la 
amant 
[XTX) X'Y. On peut éga- 


suite Y sur X. On obtient alors: B = 
lement utiliser la notation suivante: B=$,, =f;,$.. En effet, l’esti- 


7. C'est-à-dire qu'aucune ligne ou colonne n’est linéairement dépendante des autres. 
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mateur des variables instrumentales est ici égal à l’estimateur des 
doubles moindres carrés (2SLS : #w0-stage least squares), 'estimateur 
des doubles moindres carrés s’obtenant en effet en appliquant les deux 
étapes précédentes. On élaborera davantage sur ces sujets dans le 
chapitre 11 consacré à la méthode des moments généralisésÿ. 


2. PROBLÈMES AU CHAPITRE DES VARIABLES 
EXPLICATIVES : MULTICOLLINÉARITÉ ET ENDOGÉNÉITÉ 
DES VARIABLES EXPLICATIVES 


Multicollinéarité 


Dans le modèle de régression linéaire classique: y = XB+e, la 
multicollinéarité parfaite signifie qu’il existe une relation linéaire entre 
les variables explicatives. Dans la pratique, la multicollinéarité n’est 
pas parfaite. Elle présente cependant les conséquences suivantes : i) la 
présence de collinéarité au chapitre des variables de la matrice X, que 
l’on désigne par multicollinéarité, se traduit par une matrice (X1X), 
singulière lorsque cette multicollinéarité est parfaite, c’est-à-dire 


xx] = 0. Il en résulte que (XTX)'! n’est pas définie. Dans la cas où 


la multicollinéarité est très élevée sans être parfaite, (XTX) ! sera 
important, ce qui se traduira par une matrice de variances des MCO 
très élevées ; ii) la deuxième conséquence découle de la première. En 
effet, si les écarts-types des estimateurs f sont élevés, les statistiques t 
seront faibles même si les R? ou les F indiquent que l’ensemble des 
variables explicatives sont significatives ; iii) les estimateurs pourront 
être très sensibles à l’ajout ou au retrait de variables explicatives 
apparemment sans signification ; iv) on peut effectuer des prévisions 
suffisamment précises en présence de multicollinéarité si la collinéarité 
entre les variables demeure stable. 


Pour identifier la multicollinéarité, il existe plusieurs méthodes. 
Nous en retenons deux. La plus simple consiste à calculer la matrice 
de corrélation de Pearson. Cette matrice donne une mesure approxi- 
mative de la liaison linéaire entre les paires de variables explicatives. 


8. On trouvera un exemple d’application des variables instrumentales dans : Racicot, 
F.-É. (2000), op. cit, CRG 09-2000. 
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Le seuil à partir duquel la collinéarité peut être jugée importante 
s'établit au voisinage de 0,8. La deuxième méthode pour juger de 
l'importance de la multicollinéarité fait appel aux régressions auxi- 
liaires. L'avantage de cette méthode sur la première est qu’elle permet 
d’exprimer une variable en fonction de plusieurs autres : 

Xx = AiXy +a2X) +... +ag xt + V. Cette régression est dite auxiliaire 
car elle exprime une variable explicative à l’aide d’autres variables 
explicatives. Le terme v est une variable aléatoire appelé différence. 
Une collinéarité importante sera associée à une somme des carrés 
résiduelle faible ou à un R° élevé. 


Quelles sont les solutions possibles au problème de multicolli- 
néarité? Nous en retenons quatre: i) on peut d’abord ajouter des 
variables explicatives de bonne qualité, mais celles-ci ne sont pas 
toujours disponibles; ii) on peut exclure les variables qui font pro- 
blème si tant est que cela soit possible. Cette procédure équivaut à 
imposer des contraintes sur les paramètres, mais nous avons vu anté- 
rieurement que si nous procédons de la sorte, les MCO sont biaisés 
dans le cas où les contraintes ne sont pas valables. Les MCO seront 
cependant sans biais dans le cas où les contraintes sont valables ; ïi) si 
(XTX) est singulière et que l’on a besoin d’inverser cette matrice, on 
peut utiliser l'inverse généralisé de Moore-Penrose, aussi appelé 
pseudo-inverse. Posons : Z = (XTX), une matrice carrée, alors Z* est 
linverse généralisé de Moore-Penrose. Cette matrice a la propriété 
d’être unique et se définit comme suit: Z' =C,A;'C}, où A: est la 
matrice diagonale qui renferme les valeurs propres (eigenvalues) de 
(XTX) non nulles, c’est-à-dire : 


À O0 0 

0 À, 0 0 
A; — 

0 0 ns 
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et C: est la matrice regroupant les vecteurs caractéristiques de (XTX). 


Pour fixer les idées, considérons un cas du calcul des valeurs 
propres et des vecteurs propres. Soit À et c, un vecteur dont les 
éléments sont non nuls. On cherche à solutionner le système d’équa- 
tions suivant : (A - AI)c = 0. Pour obtenir une solution non triviale à 


ce système, il faut que: |A — AI) = 0. On trouve les valeurs de À qui 
satisfont à la valeur de ce déterminant. Une fois ces À calculés, on 
trouve le vecteur c à partir de la relation précédente : (A - AI)c =0. 
Pour illustrer ces calculs, considérons le cas d’une matrice A de di- 
mension (2 X 2). L’équation : (A L AI)e = 0 peut alors se représenter 
comme suit: 


a] a» —À || C 0 


Le déterminant |A -1l) = 0 est ici de: 


(au -A)(a» -À)-(a5a2: ) =0. On appelle cette équation: l’équa- 
tion caractéristique. Le À est obtenu en solutionnant ce polynôme du 


second degré, qui est de la forme: ax° +bx+c=0. La solution est: 


—-b+4b? -4ac 
2a 


iv) la quatrième solution pour traiter le problème de multicollinéarité 
consiste à utiliser l’estimateur de la ridge regression. Cet estimateur, 


X12 — 


à à 1 | 
désigné par f, est égal à: B, = (xTx + D) X!y où r est approxi- 
mativement égal à 0,01 et est obtenu par simulation et où D est une 


matrice diagonale qui contient les éléments de la diagonale de (XTX). 
L’espérance de cet estimateur est égal à : 


- = 
E(,) = [X7X +1D) [x"x) B, ce qui montre que l’estimateur de 
la ridge regression est biaisé. Par contre, sa variance est inférieure à 
celle des MCO), c’est-à-dire : 


v(B,)= o'(x'X+:D) (X!XNXTX+rD) < vf). 
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Ici, l’intuition est la suivante. Lorsque l’on a multicollinéarité quasi 
parfaite, le déterminant de (XTX) est très rapproché de 0. Le strata- 
gème est ici d'ajouter à la matrice (XTX) des éléments de nature à 
rendre ce déterminant différent de 0, en l’occurrence rajouter rD à 
(XTX). On obtiendra ce faisant un estimateur biaisé mais ayant une 
variance plus faible que les MCO), c’est-à-dire comportant un écart 


quadratique moyen plus faible que les MCO), i.e. : 
EQM(. < EQM($). 


Endogénéité des variables explicatives 


Pour présenter ce problème, nous recourons au système d’équations 
de l’offre et de la demande. On veut ici estimer la demande. Or, 
l’estimateur des MCO des paramètres de la fonction de demande sera 
généralement biaisé et non convergent. Les équations d’offre et de 
demande sont représentées à la figure 5.1. 


FIGURE 5.1 


P A 


Le système d’équations d’offre et de demande s’exprime comme suit: 


qe =Bi;+Bip:tezx (D) 
qe = Bai +Brprtex (0) 
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On suppose que les innovations sont des bruits blancs. Sur la figure 5.1, 
l’équilibre se situe au point de jonction de l’offre et de la demande. À 
ce point, on a: 


d _ 4:06 
dr —q: —q: 
En exprimant la demande sous sa, forme inverse (appelée demande 


inverse) et après avoir remplacé q® par sa valeur d'équilibre q, on 
obtient : 


Be Bee Bo 


Par conséquent, une variation dans l’innovation e;-se répercute sur le 
prix (p)) et par ricochet, par l’intermédiaire de la fonction d’offre, sur 
qt. Cela démontre que: 


E(p.,e.)#0 


Par conséquent, l’estimateur des MCO appliqué aux paramètres de 
l’équation de demande est biaisé et non convergent. La non-prise en 
compte de l’offre se traduit ici par ce qu’on appelle un biais de 
simultanéité puisque la détermination du prix et de la quantité corres- 
pondant à l’équilibre provient d’un système d’équations. Pour traiter 
ce problème, on recourt généralement aux doubles moindres carrés 
(2SLS) qui se traduisent par un estimateur convergent. En finance 
corporative, l’estimation de la demande et de l’offre d’obligations, qui 
donne lieu à la détermination du taux d’intérêt d'équilibre du marché 
des obligations, est confrontée au même problème. Il faut recourir à 
des variables instrumentales pour identifier ces deux fonctions. Ces 
fonctions découlent surtout des travaux de Miller (1977)°. 


9. Miller, M. (1977), Debt and Taxes, Journal of Finance, mai, p. 261-276. 
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CHAPITRE 


6 


LES MÉTHODES NUMÉRIQUES 
EN ÉCONOMÉTRIE 
UNE INTRODUCTION 


Dans ce chapitre, nous envisageons certaines techniques de simula- 
tion qui sont utilisées en économétrie financière pour générer des 
distributions, telles la simulation de Monte Carlo et la technique dite 
du bootstrapping. Ce chapitre s’attarde également sur une brève intro- 
duction au calcul stochastique dans ses rapports avec l’économétrie 
financière. 


1. SIMULATION DE MONTE CARLO : 
LE CAS D'UNE OPTION ASIATIQUE! 


Une simulation de Monte Carlo vise généralement à générer la distri- 
bution d’une variable économique ou financière, du moins dans ses 
rapports avec la science économique et la théorie financière. En éco- 
nométrie, l’input d’une simulation de Monte Carlo est généralement 
une distribution tandis qu’en finance, l’input est généralement une 
équation différentielle stochastique discrétisée. Le but est alors par 
exemple de calculer le prix théorique d’un instrument financier, telle 
une option, ou d'évaluer le risque théorique d’un portefeuille, par 
exemple lors d’une simulation de Monte Carlo qui met en cause la 
VaR?. 


1. Ce chapitre est basé sur le cahier de recherche suivant: Racicot, F.E. et R. Théoret 
(2001), Les méthodes numériques en économétrie financière. Analyse de quelques 
cas: La simulation de Monte Carlo, le bootstrap et le kernel, Document de 
travail du CRG, Ecole des sciences de la gestion, UQAM. 


2. VaR est l’acronyme anglais de Value at Risk. 


© 2001 — Presses de l’Université du Québec 


Édifice Le Delta I, 2875, boul. Laurier, bureau 450, Québec, Québec G1V 2M2 « Tél. : (418) 657-4399 — www.puq.ca 
Tiré : Traité d'économétrie financière, François-Éric Racicot et Raymond Théoret, ISBN 2-7605-1123-5 + D1123N 


Tous droits de reproduction, de traduction ou d’adaptation réservés 


186 Traité d’économétrie financière 


Pour mieux comprendre la technique de la simulation de Monte 
Carlo, nous recourons à un cas, celui de la détermination du prix 
d’une option de vente asiatique. Le prix d’exercice d’une telle option 
est la moyenne des prix de l’action sous-jacente du début de la durée 
de l’option jusqu’à son échéance. L’expression générale du prix d’une 
option, comme d’ailleurs du prix de tout instrument financier, en 
termes de ses cash-flows est la suivante : 


Prix = e"1-0 E* [Cash-flows(S)] 


où r désigne le taux sans risque ; (T — t), le temps qu’il reste jusqu’à 
l'échéance de l’option ; E*, l'espérance neutre au risque et Cash-flows, 
les cash-flows finaux de l’option selon les divers états de la nature 
donnés ici par les prix probables de l’action sous-jacente. 


Avant de progresser davantage dans cette présentation de la 
simulation de Monte Carlo appliquée au calcul du prix d’une option 
asiatique, effectuons une courte digression” sur l’équation différen- 
tielle stochastique du prix d’une action dont nous nous servons ici 
pour construire notre simulation. Dans sa forme générale, cette équa- 
tion, appelée #ouvement brownien géométrique, est la suivante : 


dS, =rS,dt+o$,dW, 


où S désigne le prix de l’action ; dt désigne la période de temps; s est 
l’écart-type du rendement de l’action ; dW est un processus de Wiener 
d’espérance nulle et de variance dt. Pour en déduire l’équation du prix 
de l’action, soit S, divisons d’abord cette dernière équation par S et 
intégrons cette équation de O0 à t: 


La première intégrale est une intégrale de Riemann standard égale à 
rt et la seconde intégrale contient un terme aléatoire dW, mais son 
coefficient est constant dans le temps. Cette intégrale peut donc se 


3. Pour plus de détails, voir : Neftci, S.N. (1996), An Introduction to the Mathematics 
of Financial Derivatives, Academic Press, New York; Wilmot, P. (1998), 
Derivatives : The Theory and Practice of Financial Engineering, John Wiley and 
Sons, New York; Briys, E. et 4l., (1998), Options, Futures and Exotic Derivatives, 
John Wiley and Sons, New York. 
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calculer de la façon habituelle : o(W.-W:) =6W., puisque W, = 0. 


Par conséquent, 


dS 
[ = =rt+oW, 
0 S, 


Toute solution de cette intégrale stochastique doit satisfaire cette 
intégrale. En particulier, l’une des solutions est la solution suivante : 


0 


Cette solution est fonction des paramètres o, r et W.. On peut vérifier 
l'exactitude de cette solution en différenciant cette dernière équation 
par le biais du lemme d’Itô. Ouvrons ici une parenthèse pour intro- 
duire ce lemme très important en calcul stochastique. Supposons que 
la variable aléatoire x suive le processus d’Itô suivant : 


dx =a(x,t)dt+ b(x,t)aW 


où W désigne un processus de Wiener et a et b des fonctions de x et 
de t. La tendance (drifi) de x est de a et sa variance est de b?. Soit une 
autre fonction de x et t désignée par G. En vertu du lemme d’Itô, la 
fonction G suit le processus suivant: 


2 
a Ge He 


dG = 
ox dt 2 0x” ox 


où dW désigne le même processus de Wiener que celui auquel obéit 
x. G suit également un processus d’Itô. Son terme tendanciel est le 


aG Ÿ 


contenu de la parenthèse de dt et sa variance est | ——| b?. Par 
ox 


exemple, supposons que S suive le processus suivant: 
dS = adt + bdW = uSdt +6SdW. Supposons que G = InS. En appli- 
quant le lemme d’Itô, on a: 


2 


es u— dt+odW 
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d2G 1  9G 1  dG 


puisque =— et =— et = 0. On peut montrer que 
05 5 96. $° 

le lemme d’Itô est au calcul stochastique ce qu’est l’expansion de 

Taylor au calcul différentiel classique. 


On obtient, en appliquant le lemme d’Itô à S qui, on le rappelle, est 


(ES Jow, | 
égal à: S.=Sse ? : 


(CS Jow, | 1 1 
dS, =|Sçe ? r——6° [dt+odW, +-o’dt 
2 2 


On retrouve alors l’équation différentielle initiale: dS; = rSidt + 

oS-dW.. Cette digression avait pour but de justifier la forme de l’équa- 

tion du prix de l’action qui sert de base à la simulation de Monte 
r-_6? t+6W, 

Carlo: S, =Sÿe\ ? . Comme S, suit une loi lognormale, 


In$, suit une loi normale. Ce dernier est obtenu en prenant directe- 
ment le logarithme de la dernière équation, écrite sous forme diffé- 
rentielle : 


1 
dinS, =|r--0° |[dt+odW, 
2 


Cette équation participe de la nature des mouvements browniens 
généralisés*. Cependant, avant d’enclencher la simulation de Monte 
Carlo, nous devons discrétiser’ cette équation. On peut à cet effet 
utiliser la méthode d’Euler pour obtenir une discrétisation du premier 
degréf. Pour y parvenir, discrétisons dans un premier temps l’équa- 
tion différentielle qui sert de base à l’équation du prix, soit: 


4. Un mouvement brownien généralisé est de la forme: dX =udt+odW alors 
qu’un mouvement brownien géométrique est de la forme: dX = uXdt+oXdW. 
5. Discrétiser signifie convertir en temps discret une équation en temps continu. 


6. À remarquer qu’il existe des méthodes d’approximation plus exactes comme celle 
de Milstein, qui est du second degré. Pour des éclaircissements sur ce sujet, voir : 
Jegadeesh, N. et B. Tuckman (2000), Advanced Fixed-Income Valuation Tools, 
Wiley, New York. 
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AS, =rS,At+0$, VAto 


où À représente une variation finie et b - N(0, 1). On discrétise éga- 


lement sa solution, soit: 
(is Jarevai) 
r——6° At+0 V Ath 
2 


Les développements antérieurs avaient pour but de donner 
quelques fondements théoriques au cas de simulation de Monte Carlo 
qui nous intéresse, soit la détermination du prix d’une option de vente 
asiatique. Nous effectuons cette simulation en recourant au logiciel 
Excel. La méthode de Monte Carlo consiste à générer des séries de 
prix d’actions en utilisant la formule du prix d’une action qui vient 
d’être dérivée. Pour déterminer la valeur du put asiatique, on calcule 
ensuite la moyenne des prix de l’action que l’on retranche au prix 
d’exercice. Une série est générée sur une période de durée 1 par 
tranche de 0,01 période (At). Chaque série comporte donc 100 périodes. 
Au bout de chacune de ces périodes, on calcule la moyenne de ces 
prix, que l’on retranche au prix d’exercice. Pour les résultats, on con- 
sultera les colonnes moyenne et profit du chiffrier Excel qui apparaît 
au tableau 6.1. 


Strat = Se 


Attardons-nous maintenant sur la technique du calcul d’une série. 
Pour calculer le prix d’un put asiatique”, nous avons besoin des données 
suivantes. Le prix de départ de l’action sous-jacente au put asiatique 
est ici fixé à 80 et le prix d’exercice du put est de 85. Le terme ten- 
dancielÿ, soit r ou taux sans risque puisque l’on effectue une évaluation 
neutre au risque, est fixé à 5 %. La volatilité du rendement de l’action 
sous-jacente au put asiatique s’établit à 0,20 (20 %). At est de 0,01. 
Calculons, pour la première simulation”, qui apparaît au tableau 6.1 à 
la ligne SIM (t = 0,01), la formule qui nous sert à calculer l’évolution 
du prix de l’action par incrément d’une période à partir de son prix 


7. Voici quelques références en français dans le domaine de la théorie des options: 
Khoury, N. et P. Laroche avec la collaboration de E. Briys et M. Crouhy (1990), 
Options et contrats à terme, Nathan ; Khoury, N. et P. Laroche, Options et contrats 
à terme, 2° édition, Presses de l’Université Laval, Ste-Foy. 

8. Drift en anglais. 

9. 5 000 simulations similaires seront effectuées. Nous donnons ici un cas-type de 
simulation. 
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initial de 80. La formule mathématique utilisée a été donnée précé- 
1 _. 

r--0? |At+o At 
2 


demment, soit: S,,4 =S.e . En terme du langage 


d’Excel, elle s'écrit : 


= ES8*EXP(($SB $10 — 0.5*($B $812))"$B$9 
+$B $8*($B $9,0.5){LOLNORMALE.STANDARD.INVERSE(ALEA())) 


T'ABLEAU 6.1 


Simulation de Monte Carlo effectuée pour le calcul d'un put asiatique 
Programmé par: François-E. Racicot 


Temps t= t= 
P. l'action 80 Simulation 0 0.01 0.02 
Drift (u=r) 0.05 Sim 
Volatilité 0.2 [ 80 79.2891205 79.27126577 
Incrément 0.01 delta t 2 80 78.66499431 8195555147 
Interet r 0.05 3 80  81.17816896 81.7754605 
4 80  79.25448317  81.57007378 
PV PUT 5.19 $ 5 80  80.33680191  78.61477857 
6 80  7/8.31094261  78.56076837 
P.exercice 85 7 80 79.8205457  79.23789559 
8 80  80.82829744  79.19169645 
9 80 78.6009229  77.80161597 
10 80 7985180274  79.96214356 
11 80 80.5444967  82.36397261 
12 80 82.41977267 82.92348779 
13 80 78.7899294  79.51720458 
14 80 8294541457  83.96704888 
15 80 8088513922  81.31031068 
16 80  81.86096848  83.49307978 
17 80 8106315519  80.34279928 
18 80 78.69561097  77.63004399 
19 80 7956165587  78.62794456 
20 80 7962973861 81.73153194 
21 80 8085553489  79.22527776 
22 80 76.24670934  78.53087555 
23 80 8101945084  82.32192909 
24 80 80.0000912  78.49258051 
25 80 79.27836197 79.81361149 
26 80 8147731027  80.59582096 
27 80 79.65430822 80.22714671 
28 80 8067799503  79.62513833 
29 80  80.72992357  80.77637017 
30 80  80.38681647  79.93164664 
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où le contenu des cellules est le suivant: E8 est le prix initial de 
l’action, soit 80 ; B10, le taux d’intérêt sans risque (drift) ; B8, l’écart- 
type du rendement de l’action (a); B9, l’incrément périodique (At); 
ALEA, le générateur de variables aléatoires d’Excel. La fonction 
LOI.NORMALE.STANDARD.INVERSE() exprime ALEA en une va- 
leur obéissant à une loi normale N(0, 1). Pour ce qui concerne la 
première simulation, on copie la cellule dans les colonnes de 0,01 
jusqu’à 1. Rendu à 1, on ouvre une autre cellule (DCS dans le cas de 
notre chiffrier) dans laquelle on calcule la moyenne des prix obtenus 


dans l'intervalle [0, 1]. La formule de DCS est la suivante: 


=MOYENNE(E8:DA3) 


t = 0.03 t=1 Moyenne cash-flow Espérance 
80.85290647 121.1143472 96.52243117 0 5.4577 
80.48461538 92.71114888 76.75135139  8.248648605 
80.49076078  87.95487337 83.61684531 1.383154694 
79.62603839 94.88866876 78.89180296 6.108197036 
74.29885889 61.70866471 73.06788345  11.93211655 

81.2310313 87.44423868 77.69186473  7.308135266 
77.63445005 64.58821663 76.93485993  8.065140071 
78.26866563 59.96705756 64.53758041  20.46241959 
79.38815434  90.62379039 81.72143152 3.278568483 
79.37309059 82.5227778 75.06513338  9.93486622 
84.87106345 102.7100865 90.46294143 0 
85.01618452 73.09447992 83.18424521 1.815754793 
78.54671554 130.097093 108.1235819 0 
82.75009397 61.4196164 72.65938023  12.34061977 
80.11606546 96.81254171 93.34845228 0 

84.7212354 120.8615132 97.96073286 0 
80.06404572 78.51878392 77.69767106 7.302328944 
79.22190591 70.70213568 75.25370363 9.746296368 

78.5616171 62.461891 71.48802002 13.51197998 
81.82941669 64.18020385 69.87013862 15.12986138 
78.17742773 61.4891354 74.121112 10.878888 
80.27823954  62.80009254 69.24875683 15.75124317 
80.93960323 109.0163873 94.25784774 0 
76.39817994  92.98605881 84.8702347 0.129765301 
81.01382557  47.250664197 65.34312409 19.65687591 
82.14333057 70.41452489 76.38069633 8.619303674 
81.46243778 97.62815574 100.1983943 0 
81.40768541 106.275939 88.3070333 0 
81.26770213 61.93170253 70.60894538  14.39105462 


81.09882507 


82.88289369 


83.16753639 


1.832463614 
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On peut alors calculer le cash-flow final du put associé à la première 
simulation dans la cellule DD8, toujours dans notre chiffrier Excel, 
dont la formule est la suivante : 


=MAX($B $14-DCS8,0) 


où la cellule B14 contient le prix d’exercice. On reproduit cette simu- 
lation 5000 fois dans notre exemple. 


Finalement, on calcule l’espérance risque-neutre (E*), qui, on le 
rappelle, est égale à : E* [Cash-flows(S)], s’exprime, dans le langage 
d’Excel : 


=SOMME(DD8:DD5007/NB(DD8:DD 5007). 


où la colonne s’étirant de DD8 jusqu’à DD5007 renferme les cash- 
flows du put. Le résultat de cette opération apparaît dans la cellule 
DG6 en ce qui concerne notre chiffrier. Pour obtenir le prix du put 
asiatique, il reste à actualiser l'espérance E*, c’est-à-dire : 


=$DGS$6*EXP(-$B $10*$DA$6) 


où DA6 est la cellule qui renferme la période 1, soit le temps terminal 
de chaque simulation. Ce résultat est reporté dans la cellule B12 qui 
nous fournit le prix du put asiatique, soit 5,24$. 


Dans l’exemple précédent, nous avons effectué 5000 simulations. 
Dans certains cas, ce nombre peut s’avérer insuffisant. Par exemple, 
dans le cas de la discrétisation d’Euler du modèle de Cox, Ingersoll et 
Ross (1985)!0 servant à la modélisation de la structure à terme des taux 
d'intérêt, il peut être requis d’effectuer jusqu’à 10 millions de simula- 
tions. En effet, l’approximation cause deux types d’erreurs : l’erreur sys- 
tématique et l’erreur statistique. Plus précisément: ê = esys +êsrar, 
où ê désigne l’erreur totale, esys, l’erreur systématique et êsrar, 
l'erreur statistique. Dans le modèle de Cox, Ingersoll et Ross, l'erreur 
statistique ne se résorbe qu’au bout de 10 millions de simulations. 
Cela donne à penser que l’approximation d’Euler fait problème et 
qu’il faudrait peut-être recourir à des approximations de degrés plus 
élevés que 1, telle l’approximation de Milstein qui est une discrétisation 
du second degré!f, 


10. Cox, J.C. J.E. Ingersoll et S.A. Ross (1985), « A Theory of Term Structure of 
Interest Rates », Econometrica, vol. 53. 


11. Pour plus de détails, voir : Jegadeesh, N. et B. Tuckman (2000), Advanced Fixed- 
Income Valuation Tools, John Wiley and Sons, New York, chap. 13. 
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Mentionnons finalement que certains générateurs de variables 
aléatoires, telle la fonction ALEA d’Excel, finissent par reproduire les 
mêmes variables à partir d’un certain nombre de simulations. À titre 
d’exemple, si l’on veut générer 1 million de variables aléatoires à partir 
de la version d’Excel 1995, il pourrait y avoir jusqu’à 30 copies du même 
ensemble de nombres aléatoires. Si l’on veut par exemple générer 
10 millions de nombres aléatoires, le logiciel Mathematica serait requis 
dans ce cas. Il peut en effet générer 10% nombres aléatoires avant de 
se répéter!?. Incidemment, pour le cas de l’évaluation du prix d’un 
titre, l’erreur de mesure décroît en proportion inverse de la racine 
carrée du nombre (N) de simulations. Prenons par exemple le cas de 
la simulation du prix d’un produit dérivé désigné par f par la méthode 
de Monte Carlo. On peut alors construire l’intervalle de confiance de 
f qui nous donnera le nombre de simulations requises pour en arriver 
à une précision suffisamment élevée. Cet intervalle, au seuil de 95 %, 
est le suivant: 


_L966 pu, 960 
\N VN 


où 4 est la valeur estimée de lors de la simulation et o, l’écart-type!?. 


2. LA MÉTHODE DU BOOTSTRAP 


La méthode du bootstrap est due à Efron (1979). Cette méthode est 
très apparentée à la simulation de Monte Carlo, mais elle a l’avantage 
de ne pas requérir de distribution a priori dans le mécanisme de 
génération des variables aléatoires. Nous avons déjà mentionné que la 
médiane est un estimateur robuste de la tendance centrale alors que la 
moyenne ne l’est pas dans le cas d’une distribution non normale. 
Supposons que l’on ait un échantillon de départ X dont la distribution 
théorique est inconnue. La méthode du bootstrap peut être utilisée 


12. Bhansani, V. (1998), Pricing and Managing Exotic and Hybrid Options, McGraw- 
Hill, New York, chap. 5. 

13. Pour des informations additionnelles, voir: Hull J.C., (2000), Options, Futures 
and Other Derivatives, quatrième édition, Prentice Hall, New Jersey, chap. 16. 


14. Efron, B. (1979), « Bootstrap Methods : Another Look at the Jacknife », Annals 
of Statistics, n° 7, p. 1-26. 
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pour générer certaines informations reliées à cette distribution. Par 
exemple!”, la méthode du bootstrap peut servir à calculer l’écart-type 
de la médiane de cet échantillon. Pour ce faire, on recourt à la formule 
suivante : 


où ogooT désigne l’écart-type de la médiane; B, le nombre de simula- 


IS 

—Y M, , soit la 
: Biz 

moyenne des M; découlant des simulations. Attardons-nous à expli- 
quer la procédure du bootsrap pour le calcul de l’écart-type de la 
médiane. 


tions; M;, la médiane du nouvel échantillon ; M) L 


i) La première étape consiste à générer un échantillon aléatoire 
X; de taille n avec remise à partir de l’échantillon initial, 
également de taille n. Toute observation de cet échantillon 
de nombre aléatoires comporte la même probabilité d’occur- 
rence, soit 1/n. 


ii) La seconde étape revient à calculer la médiane pour l’échan- 
tillon qui vient d’être généré. 


iii) Et l’on répète ces deux étapes B fois. On peut alors calculer 
l’écart-type de la médiane à partir de la formule pertinente. 


On peut généraliser cette procédure à toute statistique 8(y) calcu- 
lée à partir d’un échantillon y+ (t = 1, .. n) dont on ne connaît pas la 
distribution dans un petit échantillon!é. L'opération bootstrap vise ici à 
approximer la distribution de cette statistique à partir de l’échantillon 
des y observés. Pour ce faire, on doit tirer un nombre B d’échantillons 
de taille n. Cet échantillonnage est effectué avec remise. Certains de 
ces échantillons pourront contenir les mêmes observations plus d’une 
fois et les observations qui y apparaîtront seront dans un ordre com- 


15. Nous nous inspirons ici de: Johnston, J. et J. Dinardo (1997), Econometric Methods, 
4° édition, McGraw-Hill, New York, chap. 11. 


16. Nous nous inspirons ici de: Davidson, R. et J.G. McKinnon (1993), Estimation 
and Inference in Econometrics, Oxford University Press, New York, chap. 21. 
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plètement différent de l’échantillon initial. On calcule 8(ÿ“()) pour 
chacun de ces échantillons, où i = 1, … B. En bout de piste, on obtient 
ainsi B statistiques 8(y*(i)). On peut alors calculer toute statistique 
reliée à la distribution de 8(y), comme l’écart-type ou autres moments. 


On peut également illustrer la méthode du bootstrap dans le cas 
d’un modèle de régression linéaire!7. Le but est ici de calculer l’espé- 
rance de f. Soit le modèle de régression linéaire suivant : 


Vi=xpré, E=l:.n 


Nous disposons d’un échantillon de départ pour les y et les x. On peut 
calculer le premier B, désigné par (1) à partir de ces observations. 
On effectue des hootstraps sur les y et x et à chaque fois on recalcule 


A 


BG), i=1,...,B. On peut alors calculer à partir de ces derniers l’espé- 
à à Te 
rance de f, c’est-à-dire: E(f) = BU). 
il 


Wilmott (1998)! donne un exemple de hootstrap appliqué à une 
série de rendements d’actions. Il dispose de 1000 rendements journa- 
liers sur chaque action. Il reporte ces rendements dans un chiffrier. 
Les cellules sont numérotées de 1 à 1000, une pour chaque journée de 
l'échantillon et à chacune de ces journées sont associés les rendements 
des actions retenues pour cette journée. Il effectue des tirages avec 
remise 1000 fois en utilisant une distribution uniforme. Cela constitue 
un premier scénario pour les rendements de son échantillon d’actions 
sur l'horizon d’investissement envisagé. Et il refait ce processus autant 
de fois qu’il le faut pour générer une distribution précise des rende- 
ments futurs de son portefeuille d’actions. Il peut alors calculer par 
exemple la VaR de son portefeuille, qui correspond à la perte maxi- 
male que peut subir celui-ci à un seuil de confiance généralement fixé 
à 95 % ou à 99 %. 


17. On peut également utiliser la méthode du hootstrap dans le cadre du modèle de 
régression non linéaire, mais celle-ci est alors très intensive en calculs. 


18. Wilmott, P. (1998), Derivatives : The Theory and Practice of Financial Engineering, 
Wiley, New York, chap. 42. 
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3. RÉGRESSION NON PARAMÉTRIQUE : 
UNE SIMULATION MONTE CARLO 


Dans un chapitre précédent, nous avons présenté les corrélations non 
paramétriques de Spearman et de Kendall. Pour poursuivre la discus- 
sion sur les méthodes non paramétriques, on peut montrer comment 
ces méthodes peuvent s’appliquer au domaine de la régression. A cette 
fin, nous envisageons un cas basé sur des observations générées par la 
simulation de Monte Carlo et mettant en cause la régression recou- 
rant aux kernels. 


Soit le modèle de régression suivant : 


Yt =m{x,)+e. 


où m(.) est une fonction arbitraire non linéaire et e,, un terme d’erreur. 
Il s’agit ici d’estimer m par la méthode de régression non paramétrique, 
le kernel. Dans les régressions du type kernel, la fonction de poids 
WtT(x) construite à partir de fonctions de densité de probabilité (pdf) 
k(x) et justement appelée kernel possède les propriétés suivantes : 


i) k(x) 20: 


ii) [_kCu)du =1; 


Et même si le kernel ne joue aucun rôle sur le plan probabiliste 
dans l’analyse qui suit, on recourt à une fonction de densité connue 
pour déterminer les pondérations comme le kernel gaussien qui est 
retenu dans le cas de notre exemple. Ce dernier a la forme suivante : 


2 
x 


ae 
e 2h 


1 (x 1 
k, (x) h k h h Dr 
Il est à remarquer que nous avons ici effectué un changement d’échelle 
de la variable x en la reportant dans un intervalle h compris entre 
0,1X6, et 0,5x6, où 6, est l’écart-type de {x}. Notons que h est 
choisi de façon à minimiser un critère: h = argmin, Q(h). Ce critère 
nous incite à choisir la valeur 0,1X6,. La propriété ii) du kernel 
s'exprime, dans le cas de la transmutation d’échelle : fr (u)du =] 
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1 
où k, (u) = + . . Définissons la fonction de poids wsT(x) qui entre 


dans notre moyenne pondérée comme suit: 
k, (x =#, ) 


8, (x) 


Wxls)= 


1 T 
où gn(x) = TE-x). 
t=1 


La technique de lissage des données de Nadaraya-Watson, 
lPestimateur kernel de m, se définit comme suit: 


É 
Dkn(x-x)ye 
—X 


: 1€ . 
,(x)= ro PA dE = 
t=1l ) 


ÿ k}, (x 

t=l 
On remarquera dans cette formule que l’on effectue une moyenne 
pondérée des y. Si h est très petit, la moyenne sera calculée dans un 
voisinage très concentré autour de x. Par ailleurs, quand l'intervalle 
est important, la moyenne sera calculée dans un voisinage plus étendu 
autour de x. h est donc le paramètre de lissage. 


Passons maintenant à un exemple programmé dans le logiciel 
Excel. Dans un premier temps, nous générons les variables y à 
partir d’une simulation de Monte Carlo. Nous générons à cette fin 
200 variables y à partir de la relation suivante: 


Yr= sin(x, ) Fée 
où et N(0, 1). Dans Excel, en faisant varier x. de 0 à 27, on écrit: 
= SIN(B4) + LOI. NORMALE.STANDARD.INVERSE(ALEA O0) 


et on copie cette cellule autant de fois qu’on le désire, 200 dans notre 
cas. Ce faisant, on obtient la variable y de notre simulation de Monte 
Carlo. La figure 6.1 reproduit les y obtenus par cette simulation : 
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FIGURE 6.1 
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On se sert ensuite de ces données pour calculer l’estimateur kernel 
obtenu, rappelons-le, à partir de la formule suivante : 
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. Incidemment, m4 (x) 


: 1E 
my &}= RE Lverbr =“ 
t=1 


est l’estimateur de: E(y.fx, = sin(x, ). Le résultat apparaît à la 
figure 6.2. 


Pour générer kj(x — x:) dans le logiciel Excel, on recourt à la 
formule suivante : 


=(1/$E$4*RACINE(*PIO)))/(EXP((($F$2-B4)12)/(2*$E$412))) 
La cellule E4 renferme la valeur de h. Elle se calcule comme suit: 
=ECARTYPE(B4:B204)*0.1 
Les valeurs de x sont situées dans les cellules B4 à B204. Pour calculer 


Mh (x), on recourt à la formule suivante : 


=SOMMEPROD(K4:K204,$C $4:$C$204)/NB(B4:B204) 


où les cellules K4 à K204 renferment les valeurs de k(.), et les cellules 
C4 à C204, les valeurs générées de y. 


Finalement, il faut donner des valeurs à x pour le calcul de m} Es: 
Nous avons choisi les cinq valeurs suivantes programmées dans Excel : 


0, =PI(/2, =PIO, =3P10/2, =2PI(. 


En finance, la régression kernel peut servir à estimer les bêtas des 
titres. Par exemple, si nous disposons des rendements mensuels, disons 
de IBM et du TSE300, on peut générer l’estimateur kernel du bêta 
d'IBM. Les méthodes non paramétriques peuvent servir aussi à estimer 
des distributions empiriques et à effectuer des prévisions!”. À cet effet, 
Diebold et Nason appliquent les méthodes non paramétriques pour 
prévoir le taux de change?! 


19. Pour cette section, nous nous sommes référés aux documents suivants : Camp- 
bell, J.Y. et 41. (1997), The Econometrics of Financial Markets, Princeton University 
Press; Oxley, L. et al. (1995), Surveys in Econometrics, Blackwell; Johnston et 
Dinardo (1997), op. cit, chap. 11. 

20. Diebold, F.X. et J.A. Nason (1990), « Nonparametric Exchange Rate Prediction ? », 
Journal of International Economics, 28, p. 315-332. 
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FIGURE 6.2 


X (0 à 2x) 


15 


—1.5 
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CHAPITRE 


7 


L'HÉTÉROSCÉDASTICITÉ 


Dans ce chapitre, nous examinons d’abord comment la présence de 
l’hétoroscédasticité vient modifier les propriétés classiques des MCO. 
Puis nous envisageons les correctifs au problème de l’hétéroscédas- 
ticité, soit les estimateurs des moindres carrés pondérés et des moindres 
carrés généralisés. Dans le cas pour lequel la matrice variance-covariance 
est inconnue, nous montrons comment on peut construire l’estimateur 
des moindres carrés quasi généralisés à partir de différentes formes 
d’hétéroscédasticité en guise de correction de ce problème. A cet effet, 
nous présentons la matrice de White pour traiter ledit problème. 
Suivront les tests classiques pour circonscrire l’hétéroscédasticité, soit 
les tests de Goldfeld et Quandt, de Breusch-Pagan, de White et un 
test général asymptotique. Finalement, nous présentons quelques 
applications. 


1. PROPRIÉTÉS DE L'ESTIMATEUR DES MCO 
LORSQUE LES ERREURS SONT HÉTÉROSCÉDASTIQUES 


Le terme hétéroscédasticité comporte les racines suivantes. D’abord « scé- 
dastique » est associé à « fonction scédastique », qui signifie « variance 
conditionnelle >. La racine «hétéro > fait référence à «plusieurs ». 
Hétéroscédasticité signifie donc différentes variances. Bien que 
l’hétéroscédasticité se retrouve à la fois dans les séries en coupe instan- 
tanée et dans les séries temporelles, nous n’étudierons dans ce cha- 
pitre que la première forme. La seconde sera abordée ultérieurement. 
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Précisons maintenant ce que nous entendons par hétéroscédas- 
ticité. Soit le modèle de régression linéaire suivant ne comportant 
qu’une seule variable explicative : 


Yt— B: +B2x, +e: 


où E(e:) = 0 et V(e.) =6°?=06°x,. Analysons maintenant ces nou- 
velles hypothèses. Nous supposons donc que les résidus sont d’espé- 
rance nulle mais que la variance n’est pas fixe comme dans le cas 
homoscédastique mais bien variable. Elle varie ici en proportion di- 
recte de x.. En termes matriciels, la matrice variance-covariance s’écrit: 


X] 0 | 0 
O0 x; 

E(ee!)=V=0° =6Q 
0 0. . . xr 


Si on applique les MCO sur l’équation écrite plus haute, on obtient 
encore un estimateur sans biais, c’est-à-dire : E(f) =$. Mais la va- 


A 


riance de B est de: 


)(B-E(6){8-E(8)) 
=o{x'x) 'x'ox (xx) 2 0{x'x) 


Cela implique que les MCO sont inefficients en présence d’hétéroscé- 
dasticité puisque la variance des MCO est biaisée. Représentons graphi- 
quement le phénomène de l’hétéroscédasticité en reprenant l’exemple 
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de la relation entre les dépenses sur cartes de crédit et les revenus. 
Cette relation apparaît à la figure 7.1. 


FIGURE 7.1 


> 


Y 


où y. désigne les dépenses sur cartes de crédit et x:, les revenus. La 
figure 7.1 indique que la variance des dépenses sur cartes de crédit, 
circonscrite par le cône, augmente en fonction du revenu individuel. 
En effet, plus le revenu est élevé, plus les dépenses font montre d’une 
dispersion importante en raison de la marge de manœuvre plus élevée 
des gens riches. 


Comme l’hétéroscédasticité est ici de la forme : ©? = o°x, et que 
l’on voudrait revenir à l'hypothèse d’homoscédasticité, c’est-à-dire: 


E(e?) = 6?, ce qu’il faut alors faire pour corriger ce problème est de 


1 1 
4 = —V{e,)=—0"x, = 6°. On en déduit 


NX À: X4 


diviser e, par /x, : V 
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que la solution au problème de l’hétéroscédasticité des erreurs est de 
corriger la régression par (1, NX : 


Ye 1 Xe, €& 
=$ +$ + 
RU RU 


Cet 


_ - IID(0, 6°). On peut réécrire le modèle corrigé comme 
Xt 


suit : 


* = *x * *x 
Ye = Pix “ae +B2X* 2 +e* 
Et sous forme matricielle, ce modèle s’écrit comme suit: 
y“ _ X * B + e * 


où e* - IID(0, o°1). Si on applique les MCO sur cette régression, on 
obtient les moindres carrés pondérés : 


à — 
= xT y x ky* 
Bwzs =(x X ] X°y 
Les propriétés de cet estimateur sont les suivantes : 
E(Bws =f 


Male) 


. 3 a _— 
où l’estimateur de o? est de: ———&*T ê*, où k est ici de 2. 


T-K 
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2. L'ESTIMATEUR DES MOINDRES CARRÉS 
GÉNÉRALISÉS : MCG 


Soit P la matrice diagonale de transformation des variables de la régres- 


sion : _ 


X] 0  .. 0 
0 

y* = Py; X* = PX et p'P- =0’!. 
0 D »: + %xT 


Puisque Q-l est diagonale, P est égal à l’inverse de la racine carrée de 
la diagonale de Q. Si l’on applique les MCO sur la régression trans- 
formée par P, on obtient l’estimateur des moindres carrés généralisés 


(MCG): 
ê To eT oi Ty) Le Tyrt 
Bars =(X'Q x) xXTQ !y={xXTVUx) XTV y 
as a la propriété d’être l’estimateur BLUE de f. On a en effet les 


relations suivantes : Effus) =} V(Bcs) = (xT vx)" La 


variance de Elus) = $ est ici la variance minimale dans la classe des 
estimateurs linéaires. 


On a ici supposé que V est connu. Si V est inconnu, on peut 
l’estimer par V.On obtient ainsi les moindres carrés quasi généralisés 
(MCQG). Cet estimateur s'écrit comme suit: 


a 
à ; .. ui Tr 
B=(x"v x) XTV ly= GE xx) D GE xey, 
= 


t 
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où x4 est un vecteur de variables explicatives. 
. 9 2: 
Pour cet estimateur, 0." peut prendre un grand nombre de spéci- 


2 
fications. Par exemple, il peut être égal à Zlœ ou encore à (z!a) | 


Considérons par exemple le second cas. On a: 


2 
2 2 T 2. ; 
= (ou + OX, + OX 3e +...+ 0x) = (2 a) . Cette spécification 


représente une forme linéaire d’hétéroscédasticité qui dépend des 
variables explicatives. Pour rendre opérationnelle cette spécification, 
nous devons calculer les résidus estimés de la régression : y = XB +e 
et effectuer la régression suivante : 


OT 
=Z A+ v, 


ê. 
On estime cette régression par les MCO et l’on obtient les & du 


modèle d’hétéroscédasticité. On peut alors écrire le modèle d’hétéro- 
scédasticité comme suit: 


2 
o_= (z'à) 
Ayant postulé cette forme d’hétéroscédasticité, nous pouvons substi- 
tuer cette valeur dans l’estimateur des MCQG et obtenir: 


B=|Y (zi) xext | [Y(zla) er, 


t=1l t=l 


Cette technique est utilisée dans le cas où plusieurs variables explica- 
tives sont susceptibles de causer l’hétéroscédasticité. Donnons un 
exemple simplifié de cette technique de correction de l’hétéroscédas- 
ticité. Soit le modèle déjà considéré à deux variables explicatives qui 
relie les dépenses sur cartes de crédit aux revenus et aux revenus au 
Carré. 


Yt 1 X2+ X3+ € 
Se a em cr ve 
Gt Gt Gt Gt Gt 


Il reste à appliquer à cette équation les MCO pour obtenir les MCQG. 
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Notons ici deux propriétés des MCQG. D'abord, ils sont sans biais : 


E[ x : = $. On ne peut déterminer si cet estimateur est à variance 


minimale dans les petits échantillons parce qu’il est n’est guère pos- 
sible de calculer la matrice variance-covariance. Par contre, cet 


estimateur est convergent : pli )=6. Ensuite, les propriétés 


asymptotiques de cet estimateur sont les mêmes que celles des MCG. 


3. MATRICE DE WHITE POUR L'HÉTÉROSCÉDASTICITÉ 


Au vu des développements précédents, la correction pour l’hétéroscé- 
dasticité peut s’avérer un processus ardu, ne serait-ce qu’en raison de 
la spécification de la forme de l’hétéroscédasticité. White (1980)! a 
proposé un estimateur pour la matrice écrite antérieurement: 


a 1 1 
V(B) = 6° (x'x) x'ox{xTx) . Cet estimateur a la forme sui- 


vante : 


-1 


Ÿ(8)-T{xTx) s,{x"x) 


T 

où Sp = — D Èxx, où x. est un vecteur de variables explicatives. 
| t=1 / 2 .. ; 

Cet estimateur est pré-programmé dans le logiciel EViews. En pra- 

tique, il suffira simplement d’estimer la régression linéaire : y = Xf +e 

par la méthode des MCO et de calculer la matrice de White de façon 

à obtenir des écarts-types corrigés pour l’hétéroscédasticité qui servi- 


ront à la construction des tests t corrigés. Un exemple de cet estimateur 


sera fourni dans la section des applications’. 


1. White, H. (1980), «A Heteroscedasticity-Consistent Covariance Matrix 
Estimator and a Direct Test for Heteroscedasticity», Econometrica, vol. 48, 
p. 817-838. 

2. Notons que la transformation Box-Cox peut être également utilisée pour traiter 
le problème de l’hétéroscédasticité. À cet effet, on consultera par exemple: 
Gaudry, MJ.L et M.G. Dagenais (1979), « Heteroscedasticity and the Use of 
Box-Cox Transformations », Economics Letters, vol. 2, p. 225-229. 
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4. TESTS D'HÉTÉROSCÉDASTICITÉ 


Dans cette section seront présentés les tests de Goldfeld et Quandt, 
de Breusch-Pagan, un test général et finalement celui de White. 


4.1. Test de Goldgeld et Quandt (1965) 


Lorsque l’on peut identifier la variable à la source de 
l’hétéroscédasticité, le test de Goldfeld et Quandt (GQ) est approprié. 
Soit le modèle de régression linéaire suivant: y, =B, +f,x, +e,, où 
et- N(0, o$), of =x02. x, étant la cause de l’hétéroscédasticité, on 
ordonne les observations par ordre décroissant des xt. On sépare par 
la suite l’échantillon en trois partitions égales et l’on effectue la ré- 
gression linéaire sur les partitions extrêmes, numérotées respective- 
ment 1 et 2. On obtient alors la variance des termes d’erreur de 
chacune de ces régressions, c’est-à-dire : 


.2 _ ÊTÈt 2 _ 87 8 
Oj = ——— et GO) = ——— 


où k=2 puisque, dans notre régression, nous avons deux paramètres à 
estimer : le paramètre du terme constant et celui de la variable expli- 
cative. Le test GQ s’écrit comme suit: 


L'hypothèse testée par GQ est la suivante : HO: 6? = 62 versus H1 : 
6? > 02. Ce test est unilatéral et il consiste à rejeter HO si F > Fc pour 
un seul de confiance a de 5 %. La version bilatérale de ce test existe 
également et consiste aussi à ordonner les observations par ordre 
décroissant et à mettre au numérateur de F la variance estimée la plus 
élevée. Notons que la puissance du test dépend du nombre d’observa- 
tions exclues*. 


3. Il est à signaler que l’on peut également effectuer le test GQ en ordonnant les 
observations par ordre croissant de x. La variance de la partition 2, qui est 
éventuellement la plus élevée, apparaît alors au numérateur de F. 
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4.2. Test de Breusch-Pagan (1979) 


Dans la version présentée ci-devant, le test de Goldfeld-Quandt a 
pour défaut que la variable qui cause l’hétéroscédasticité doit être 
connue. Dans le cas où la variance de l’innovation dépend de plus 
d’une variable explicative, le test de Breusch-Pagan (BP) s’avère plus 
approprié. Soit le modèle de régression suivant: y, =x!B+e, où 


xl = [1 xx X3e .. x] et où e - N(0, co) et 6° = h{z{a) al, estun 


vecteur : @l=[œ; &2 ... ax]. La fonction h(.) peut inclure toutes les 


variables explicatives. Cette formulation prend également en compte 
les différentes spécifications suivantes. Une première spécification est 
la forme multiplicative de l’hétéroscédasticité due à Harvey (1976)*, 
qui est incidemment une forme très flexible : 


oi = en . 


Deux autres spécifications de l’hétéroscédasticité sont les suivantes: 
2 
EEE 
a. 
Le test de BP vise à tester l’hypothèse suivante: H0: 


a! = [0 5 à 0] contre Hi: &' #[0 un à of. Si 
HO n’est pas rejetée, alors 04? =@1, ce qui implique l’hypothèse d’ho- 
moscédasticité. Pour effectuer ce test, on n’a qu’à suivre la procédure 
suivante : 


i) Obtenir les résidus estimés du modèle: 8 = y - XB ; 
ii) Substituer ê? à o& pour obtenir: 


ë2=zla+v, 
Ce type de régression est qualifié d’auxiliaire ou d’artificielle. 
Cette régression respecte le test BP puisque BP ne dépend 


4. Harvey, A. (1976), « Estimating Regression Models with Multiplicative Hetero- 
scedasticity», Économetrica, vol. 44, p. 461-465. 
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pas de h(.). En appliquant les MCO sur cette régression, on 
obtient ainsi la somme des carrés expliqués (SCE): 


SCR 
SCE = ——-SCR = SCT -SCR. On calcule par la suite : 
R 


42 
G? = , qui est incidemment l’estimateur maximum de 


vraisemblance de ©. 


iii) Calculer la statistique BP sous H0: à = 0. On a donc: 


où s est le nombre de variables incluses dans la régression artificielle, 
incluant le terme constant. On rejette HO si BP > x. 


Pour fixer les idées, dirigeons notre collimateur vers l’exemple 
suivant. On suppose que l’on a deux variables explicatives pour expli- 
quer y, y étant les dépenses sur carte de crédit de l'individu i et les 
deux variables explicatives : le revenu et le revenu au carré de l’indi- 
vidu i. En appliquant la procédure décrite précédemment, on suit les 
étapes suivantes pour implanter le test BP : 


i) On effectue la régression suivante : 
22 
et = FOX), FOX + V, 


ii) On obtient la SCE de cette régression et on calcule égale- 
ment 6°, tel qu’expliqué précédemment. 


iii) Sous l’hypothèse que les résidus sont normalement distri- 
bués et sous HO: à, = @&;, = 0, on construit la statistique BP : 


SCE 
26° 


BP = 24° (s). On rejette HO, soit l'hypothèse d’homo- 


scédasticité, si BP > x“. 


Si les résidus ne sont pas distribués normalement, on recourt à la 
régression artificielle présentée précédemment et l’on obtient le R?. 
On construit alors le test général asymptotique suivant: 


TR°2%"(s) 
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Ce test fait partie de la classe des tests LM. Le test BP et le test 
général LM qui se confondent asymptotiquement sous l’hypothèse de 
la non-normalité des résidus sont des tests assez généraux, on le 
rappelle, pour intégrer les formes d’hétéroscédasticité non linéaire. 


4.3. Test de White (1980) 


Le test de White est un test général de l’hétéroscédasticité. Ce test 
recourt à la matrice de White exposée précédemment: 


Ÿ(f) = T{x'x) So (x'x) Il consiste à comparer cet estimateur 


à celui de la variance des moindres carrés ordinaires. Sous l’hypothèse 
d’homoscédasticité, l’estimateur de la variance des MCO est conver- 
gent tandis que sous l'hypothèse d’hétéroscédasticité, c’est l’estimateur 
de White qui l’est. Le test de White se fonde sur ce résultat. Ce test 
consiste comporte donc les étapes suivantes : 


i) Effectuer la régression de &? sur une constante et chaque 
variable de X@ X. 


ii) Calculer TR? de cette régression et formuler le test: 


a 
TR°-%° (k - 1); où k est le nombre de régresseurs incluant 
la constante. 


ii) On rejette l'hypothèse HO: 6? = 6° Vt contre H1: 6? 4 0?, 
si TR’ >. 


5. APPLICATIONS 


Pour illustrer le problème de l’hétéroscédasticité dans les coupes ins- 
tantanées, nous allons revenir au modèle des dépenses sur cartes de 
crédit en fonction du revenu de lindividu i, de son revenu au carré, de 
son âge et de la variable loyer-maison. Les résultats apparaissent au 
tableau 7.1. 
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T'ABLEAU 7.1 


Dependent Variable : CARTE 
Method: Least Squares 
Date : 04/13/00 Time : 18:09 
Sample: 1 100 IF X3 > O 
Included observations : 72 


Variable Coefficient Std. Error  t-Statistic Prob. 
C —237.1465 199.3517  —1.189589 0.2384 
REVENU 234.3470 80.36595 2.915999 0.0048 
REVENUA2 —14.99684 7.469337  —2.007788 0.0487 
AGE —3.081814 5.514717  —0.558835 0.5781 
LOYERMAISON 27.94091 82.92232 0.336953 0.7372 
R-squared 0.243578 Mean dependent var 262.5321 


Ajusted R-squared 0.198418 S.D. dependent var 318.0468 
S.E. of regression 284.7508  Akaike info criterion 14.20802 


Sum squared resid 5432562. Schwarz criterion 14.36612 
Log likelihood —506.4888 F-statistic 5.393722 
Durbin-Watson stat 1.682310 Prob(F-statistic) 0.000795 


Le test de White 


La matrice X ® X qui est à la base de ce test comprend 13 variables, 
soit les variables initiales, les variables initiales élevées au carré et les 
produits croisés des variables initiales. La régression suivante devra 
donc être effectuée : 


&f = Bi +B2 (âge) +B,; (âge) +B4 (âge x revenu) Eu bV 


À la suite de cette régression, on calcule le R? que l’on multiplie par 
le nombre d’observations et que l’on compare ensuite au x, c’est-à- 
dire dans notre cas: 


TR*=72x0,199 = 14,33 
Par ailleurs, le x?(12) est égal à 21,03 au seuil «=5 %. Selon HO: 


6° = 067, soit l’hypothèse d’homoscédasticité. Contrairement à nos 
attentes, l’on ne peut ici rejeter l'hypothèse HO, soit l’absence 
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d’hétéroscédasticité. Signalons que les tests de Breusch-Pagan et de 
Goldfeld et Quandt rejettent pour leur part HO, ce qui est conforme 
au graphique antérieur reliant les dépenses sur cartes de crédit au 
revenu individuel sur lequel il y avait apparence d’hétéroscédasticité. 


Finalement, le tableau 7.2 présente les statistiques t corrigées 
construites à partir des écarts-types de la matrice de White. 


T'ABLEAU 7.2 


Dependent Variable : CARTE 

Method: Least Squares 

Date : 04/13/00 Time : 18:12 

Sample: 1 100 IF X3 > O 

Included observations : 72 

White Heteroskedasticity-Consistent Standard Errors & Covariance 


Variable Coefficient Std. Error  t-Statistic Prob. 
C —237.1465 220.7950  —1.074058 0.2866 
REVENU 234.3470 92.12260 2.543860 0.0133 
REVENUA2 —-14.99684 7.199027 -2.083177 0.0411 
LOYERMAISON 27.94091 95.56573 0.292374 0.7709 
AGE -3.081814 8.422641 —0.900420 0.3711 
R-squared 0.243578 Mean dependent var 262.5321 


Ajusted R-squared 0.198418 S.D. dependent var 318.0468 
S.E. of regression 284.7508  Akaike info criterion 14.20802 


Sum squared resid 5432562. Schwarz criterion 14.36612 
Log likelihood —506.4888 F-statistic 5.393722 
Durbin-Watson stat 1.682310 Prob(F-statistic) 0.000795 


Pour obtenir ces résultats, il suffit d’utiliser l’option du logiciel Eviews 
permettant de calculer la matrice de White tout en effectuant une 
régression ordinaire pour obtenir les coefficients de régression. On 
ne remarque ici que peu de différence entre les statistiques t corrigées 
et non corrigées: après correction, les variables non significatives 
demeurent non significatives et les variables significatives le demeurent. 
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6. NOTE SUR L'INFÉRENCE STATISTIQUE 
EN PRÉSENCE D'HÉTÉROSCÉDASTICITÉ 


Les tests t et F de la régression corrigée ne sont pas valables, car on 
ignore la forme exacte de la matrice variance-covariance dans les 
petits échantillons. Il faut se méfier du R? associé à cette régression. 
Ce R° tendra en effet à être plus élevé après régression, mais cette 
augmentation peut être due au calcul de y* qui est utilisé dans le calcul 
de ce R°. Qui plus est, ce R? n’est pas nécessairement situé entre 0 et 
1, mais on peut remédier à cette situation en utilisant le R? corrigé 
suivant : 


Rs _ (= has) (r-Xhcus) 
Yv.-5) 
t=1 


où X et y sont les variables originales. 


© 2001 — Presses de l’Université du Québec 


Édifice Le Delta I, 2875, boul. Laurier, bureau 450, Québec, Québec GI1V 2M2 * Tél. : (418) 657-4399 - www.puq.ca 
Tiré : Traité d'économétrie financière, François-Éric Racicot et Raymond Théoret, ISBN 2-7605-1123-5 + D1123N 


Tous droits de reproduction, de traduction ou d’adaptation réservés 


CHAPITRE 


8 


L'AUTOCORRÉLATION 
DES ERREURS RÉSIDUELLES 


L’autocorrélation des erreurs est un phénomène qui se retrouve dans 
le domaine des séries temporelles. Un autre type plus rare de corréla- 
tion des résidus retrouvé dans les coupes instantanées est appelé cor- 
rélation spatiale!. Nous allons cependant nous consacrer ici au premier 
type de corrélation des résidus. Nous envisagerons d’abord les pro- 
priétés de l’estimateur des MCO lorsque les résidus sont autocorrélés. 
Puis nous verrons comment on peut traiter ce problème à partir des 
moindres carrés généralisés. 


1. PROPRIÉTÉS DE L'ESTIMATEUR DES MCO 
LORSQUE LES RÉSIDUS SONT AUTOCORRÉLÉS 


Il y a essentiellement deux causes classiques au phénomène de l’auto- 
corrélation. D’abord, l’omission d’une variable pertinente au modèle 
envisagé ou l’addition de variables inadéquates peut causer l’autocor- 
rélation. Ensuite, le traitement des données effectué par les agences 
statistiques pourrait se traduire par l’autocorrélation des erreurs rési- 
duelles lorsque l’on estime un modèle. 


Considérons maintenant un modèle de régression linéaire appli- 
qué à des séries temporelles. Ce modèle s'écrit: 


T 
Yt Xe Bree 


1. Voir à cet effet : Racicot, F.-É. (2000), Notes on Nonlinear Dynamics, CRG, op. cit. 
On consultera aussi: Jonhston, J. (1988), Méthodes économétriques, tome 2, 
Economica, Paris. 
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où t représente le temps. Nous introduisons ici une modification au 
processus suivi par l’innovation par rapport au modèle classique. En 
effet, on postule que e. suit un processus autorégressif d’ordre p, 
désigné par AR(p). Nous nous limiterons dans cette section au pro- 
cessus autorégressif d'ordre 1, c’est-à-dire : p = 1. Ce processus sto- 
chastique se définit ainsi : 


er — Per 1 FE: 


où €, est un bruit blanc (white noise) et où lpl<1. Considérons 
d’abord certains aspects du processus AR(1) avant de nous déplacer 
vers les propriétés de l’estimateur MCO comme tel en présence d’auto- 
corrélation. 


Dans le processus AR(1), nous avons postulé que €, est un bruit 
blanc. Cela signifie que : 


Cov(e,,e,)=0 Vts 


Avoir supposé que | p | < 1 implique que le processus stochastique de e; 
est stationnaire. La stationnarité d’une série signifie entre autres que 
sa moyenne et sa variance sont constantes et que l’autocovariance ne 
dépend que de la distance entre les réalisations. Nous reconsidérerons 
plus en détails ces allégations dans le prochain chapitre. 


Pour dégager les propriétés de l’estimateur des MCO en pré- 
sence d’autocorrélation, écrivons un modèle simple qui ne renferme 
qu’une seule variable explicative, soit : 


Y+ SP; +:x; +6, t=1,..,T 


où €, suit un processus AR(1). La matrice variance-covariance des 
résidus se présente comme suit : 
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1 p p° p! 1! 
p A 
s p° p 1 p7* 
Eee" }=V = 020 = 6? — 
—p 
‘in pr 1 


Voyons comment se calculent l’un des éléments de la diagonale prin- 
cipale et un autre hors-diagonale. Les éléments sur la diagonale sont 
les variances de et. On a: 


Ve,)= V(pe.;+e.)=p"V(e.:)+V(e,) 


puisque Cov(e,_1,e.) = 0. Comme nous avons supposé que le pro- 
cessus est stationnaire, On 2: 


Pour obtenir les éléments hors-diagonale, nous avons calculé l’auto- 
covariance qui est requise pour le calcul de lautocorrélation. 


Cov(e, ,€t1) = El(e, _ E(e, )(e - E(e. ))| = E(e,e,.) 


[eo] 


= E((pe, ; + Et }e.1) — pE(e, ;) + E(s.e,) = pe = p 2 


1—P 
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Il en résulte la formule suivante pour l’autocorrélation : 


Cov(e,,e.:) po: 
= : = p 
V(e,) (o] 


€ 


Corre, +) = 


Par conséquent, r représente la corrélation entre l’erreur d’une période 
à l’autre et est donc désigné : coefficient d’autocorrélation. Par ailleurs, 
lPautocovariance entre e. et et-K est égale à: po et est obtenue par 
substitutions répétées. On peut donc écrire : 


Corr(e,,e, 4 )= p* 


pour k= 1,2, 


Par rapport au modèle classique des MCO), la matrice variance- 
covariance des résidus n’est plus égale à o°I mais à &.2Q. Comme dans 
le cas de l’hétéroscédasticité, en présence d’autocorrélation, l’estima- 


teur des MCO de f est sans biais, c’est-à-dire : E(8) =. Mais cet 
estimateur est inefficient puisque la variance de f qui découle de 


si À 
l’estimateur des MCO est égale à: oi[x"x) x'ox{x"x) CE 


1 
qui est certes différent de o?[x"x) . La variance donnée par les 
MCO comporte donc un biais, d’où l’inefficience de cet estimateur. 

Revenons au modèle simple à une variable où le terme d’erreur 
suit un processus AR(1). Nous voulons démontrer comment traiter le 


problème d’autocorrélation dans ce cas. Substituons la valeur de e+ 
dans ce modèle. Nous avons: 


Ye = Bi +B2xx + pe, +e. 


où ee = Ye Bi -B2X251. En remplaçant e& ; par sa valeur, on a: 


Yr —PYt1 — B.(1-p)+B2(x2 —pxiri)+E, 


Une telle transformation est appelée : transformation en quasi-différences. 
Un telle équation peut être estimée en recourant aux moindres carrés 
non linéaires. En effectuant les regroupements suivants, cette der- 
nière s'écrit: 


Ye = Bix “ie +B2X 2 +€ t=2,3,..,T 
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où €, est un bruit blanc. Si on applique les MCO sur ce dernier 
modèle, on obtient un estimateur BLUE pour f quand p est connu. 
Par contre, deux problèmes subsistent. En premier lieu, la transfor- 
mation en quasi-différences se traduit par une perte d’information, en 
l’occurrence y1* et x21*. En deuxième, la valeur de p n’est générale- 
ment pas connue. Pour pallier à ce dernier problème, Cochrane et 
Orcutt (1949)? ont suggéré la procédure itérative suivante qui fait 
litière de la première observation. Soit les deux équations : 


t —PYr1 — B.(1-p)+B2(x2 —pxiri)+E 
— Bi —B2x2 = P(y:1 - B: — Brxrci)+E: 


La première étape de la procédure itérative consiste à postuler une 
valeur initiale hypothétique pour p, désignée par Pt 1). On obtient les 
valeurs: y: — Pay 1 et X2 —PaX2e1 que l’on substitue dans la 
première équation . On applique les MCO sur cette équation et l’on 
obtient: B;,1, et B:4,. Ceci constitue la première étape de l’itération. 
Dans une deuxième itération, on substitue ces deux coefficients dans 
la deuxième équation et l’on obtient, en appliquant les MCO, une 
seconde valeur de p, désignée par f 2). Le processus itératif se termine 
quand on note la convergence, c’est-à-dire quand les coefficients 
estimés ne varient plus sensiblement d’une régression à l’autre. Comme 
cette méthode néglige la première observation, elle peut donner lieu à 
des estimateurs relativement inefficients dans les échantillons restreints. 
Ce problème tend à s’estomper à mesure que la taille de l’échantillon 
augmente. 


Prais et Winsten (1954) ont proposé de prendre en compte la 
première observation en utilisant la procédure suivante. On calcule 
comme suit la première observation : 


1-p°y; =, /1-p? +B/1-p2x2 + J1-p'e 


2. En présence d’erreurs de mesure sur les variables, la procédure de Cochrane et 
Orcutt et celle de Prais et Winsten pourraient s’avérer perverses, en ce sens 
qu’elles amplifieraient les prolèmes causés par les erreurs de mesure. Pour plus 
de détails, voir : Dagenais, M.G. (1994), « Parameter Estimation in Regression 
Models with Errors in the Variables and Autocorrelated Disturbances », 7ournal 
of Econometrics, vol. 64, p. 145-163. 
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En transposant le tout sous forme matricielle, on obtient : 


y*=X*P+e 
où : 
1-p°y: \1-p? V1-px2 
Y2 —Py: 1—p X22 — PX); 
= by = = PX 
YTr =PYT 1—p X2T —PX2 T1 
11-p°e; 
E) 
E= = Pe 
ET 
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1-p? O0 0 
_p 1 0 0 
0 -p 1 O0 0 
où P = 
0 P | TXT 


En appliquant les MCO sur les variables transformées par P, on 
obtient l’estimateur BLUE de f: 


B=(x*T > où y*= (x'PTPx) x'PTPy 
_ (x'a"x) X'Q "y 7 Bcrs 


où Q 1 =P'P. On est ici en présence de l’estimateur des moindres 
carrés généralisés pour un r donné. La variance de cet estimateur est de : 


VÜêas)=c(xTo x) 


Dans cette équation, on estime 62 par: 


x T é 
[y*-X*Bcs) (y°-X*Bcs) : . 
ô; = où k = 2 pour le cas qui nous 


T-k 


intéresse. 


En résumé, si p est connu, en remplaçant y, X et e par y*, X* et 
e* dans le modèle ci-haut présenté et en appliquant les MCO sur le 
modèle ainsi transformé, on obtient l’estimateur des moindres carrés 
généralisés, qui est l’estimateur BLUE de f. Quant à eux, les tests 
d’hypothèses et les intervalles de confiance valent toujours tant et 
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aussi longtemps que les estimateurs MCG de f et de 6? sont utilisés. 
Par contre, si p est inconnu et estimé, alors les tests ne sont valables 
qu’asymptotiquement. Le R? souffre du même problème que dans le 
cas de l’hétéroscédasticité. Après correction pour l’autocorrélation, le 
R? tendra à diminuer. La procédure proposée pour corriger ce pro- 
blème est la même que celle établie dans le cas du problème de 
l’hétéroscédasticité, qui, on le rappelle, est de calculer le R? comme 
suit : 


: (y-XP GLS | (y-XBcis) 
T 


Lr-F) 


t=1 


où y et X sont les variables non transformées. 


2. CORRECTION DU MODÈLE ORIGINAL 
LORSQUE Pp N’EST PAS CONNU 


Tel que mentionné, la méthode Cochrane-Orcut est un algorithme 
itératif pour déterminer la valeur des paramètres du modèle de régres- 
sion avec autocorrélation. La méthode de Prais et Winsten, quant à 
elle, tient compte de la première observation. Une façon d’enclencher 
l'algorithme est de prendre comme p initial celui qui résulte de la 
régression suivante : 


ê = Pê à Fée 


L’estimateur de p, biaisé mais convergent, est donné par: 


qui est le coefficient d’autocorrélation estimé entre e; et e:1. Bien 
qu’il soit préférable de se servir de cet estimé comme point de départ 
à l’algorithme itératif Cochrane-Orcut, de façon à simplifier l’exposé, 
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nous substituons directement cette valeur dans la formule des MCG 
de manière à obtenir les moindres carrés quasi généralisés (MCQG), 
ce qui est une procédure qui est également acceptable. On obtient : 


D = (x'a x) x'ê ty 


À " <i | 
où v(é) _ 6° (x'@ x) et où l’estimateur de 6° est : 


À T À 
Ë E Bmcoc Ë à Bmcoc | 


T-k 


#2 
OE — 


Procédures récentes pour la correction 
de l’autocorrélation 


Comme nous l’avons mentionné antérieurement, le modèle de régres- 
sion classique peut s’écrire comme suit en présence d’autocorrélation : 


Ye — (1-p)B; +PY+ +B2x2 — PB2X2 51 FE: t=2,3,..,T 


Cette équation contient des produits de paramètres, ce qui implique 
qu’elle est non linéaire. On peut donc recourir aux moindres carrés 
non linéaires (NLS) pour estimer cette équation : 


T 


Min S*(B1B2,p) L dus L (y. -(1-p}8; —PY:-1 — B2X2 + PB) 


Cet estimateur, on le rappelle, ne comporte pas de solution analytique. 
Pour estimer les paramètres, on aura recours à l’algorithme d’optimi- 
sation dont il fut question dans la section des moindres carrés non 
linéaires. Si les résidus sont normalement distribués, l’estimateur des 
moindres carrés non linéaires se confondra avec celui du maximum de 
vraisemblance. Sa performance équivaudra alors à celle des FGLS. 


3. Soit les FGLS en anglais, ce qui est l’abréviation de :Feasible Generalized Least 
Squares. 
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La méthode d'intégration de la première observation développée 
par Prais et Winsten peut être incorporée dans le modèle de régres- 
sion non linéaire. On obtient alors: 


S(B,,B2,p)=S*(B:,B2;p)+(e*;)" 


< 2 2 > : 
où (e*,) : (y —B,x*1 -B;x*;) . Pour déterminer la valeur des 
paramètres, on minimise la fonction S en ayant recours à l'algorithme 
d'optimisation. Dans les cas où le terme d’erreur suit un processus 
AR(p), il existe une procédure en deux étapes pour corriger l’auto- 
corrélation. 


3. TESTS D'AUTOCORRÉLATION 


Pour détecter la présence d’autocorrélation d’ordre 1, le test Durbin- 
Watson (1951) demeure le plus populaire. La statistique associée à ce 
test est: 


Pour comprendre pourquoi d est une statistique pertinente pour 
tester l’autocorrélation, on réécrit d comme suit: 


T T SL 
>< Yi: CRC 
d= +22 =1+1-26=2(1-$) 
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Si p = 0, il en résulte donc que d est environ égal à 2 et si p=1, d est 
approximativement égal à 0. Le calcul de la statistique d nous indique 
donc si les résidus sont autocorrélés ou non. Il reste que cette démarche 
s'avère plus ou moins rigoureuse. 


La procédure classique pour tester la présence d’autocorrélation 
est la suivante. 


i) Soit di la borne supérieure du test et dr, la borne inférieure, 
le test comportant en effet deux bornes. Soit H0: p=0 et 
H1 : pZ0. On à les cas suivants: 


a) d, <d<4-d, — ne pas rejeter HO ; 

b) 0<d<d, — rejeter H0 = p >0 ; 

c) 4-d; <d<4- rejeter HO = p < 0; 

d) d, <d<d, ou 4-d, <d<4-d, zone d’indétermination 


Il faut cependant remarquer que dans le cas où la régression 
comporte, parmi les variables explicatives, la variable dépendante retar- 
dée (y+1) et que les résidus sont autocorrélés d’ordre 1, la statistique 
d est alors biaisée vers 2. Elle ne peut donc être utilisée directement 
pour tester l’autocorrélation. La statistique h développée par Durbin 
(1970) doit alors être utilisée. Celle-ci se définit alors comme suit: 


TT 
1 TV (2) 


où p est le coefficient d’autocorrélation du processus AR(1) calculé à 


l’aide des résidus des MCO et V(6) est l’estimé de la variance du 


coefficient de +1. Sous HO, la distribution de h est de: h ? N(0, 1). 
Si l’on détecte de l’autocorrélation en présence d’une variable dépen- 
dante retardée, l’estimateur des MCO est alors biaisé et non conver- 
gent : le terme d’erreur n’est pas dans ce cas orthogonal à y: 1. Il faut 


alors recourir à d’autres méthodes pour estimer une telle régression. 


4. Pour plus de détails, on consultera : Judge, G.G. et al., (1985), The Theory and 
Practice of Econometrics, John Wiley and Sons, New York. 
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4. PRÉVISION DANS LE MODÈLE LINÉAIRE 
AVEC ERREUR DE LA FORME AR(1) 


Dans les chapitres précédents, nous avons étudié comment prévoir à 
l'intérieur du modèle linéaire. Nous suivons la même procédure ici en 
venant toutefois nous situer dans le domaine temporel. Quand les 
résidus sont autocorrélés, l’estimateur des MCO de vo, désigné par 
Ÿo, souffre d’inefficience. On recourra alors aux moindres carrés 
généralisés (MCQG). Pour fixer les idées, reprenons le modèle linéaire 
de base : 


À 
=-xwhie, E=LiiT 
où e, =pe,_+e,, où €, - WN (0, oi) et où | | < 1, soit l’hypothèse 


de stationnarité. Si l’on veut prédire yr,1, on peut écrire : 


= T#© 
YTH — xr1B+Per +Eru 


Pour obtenir la prévision, on substitue Bumcoc à B, Pàpet ëràer. 
On trouve &- comme suit: 


= TÂ 
ET =YT —XTBmcoc 


On dégage la prévision suivante de yr:1: 


A … a à à K à 
Ÿru = XraBmMcoc +PÈr 
Pë- tenant lieu de prévision de er,1, qui incidemment n’est valable 


qu’asymptotiquement. 


Si l’on désire effectuer une prévision plusieurs périodes à l'avance, 
par exemple h périodes, on procède de la façon suivante. Il faut pour 
ce faire calculer l’espérance conditionnelle du terme d’erreur du 
modèle, qui est égale à: 


Êtrih = Er (even ) = p'er LE P'Er (Eru)+..+Er (Erun) 


Cette équation est obtenue par substitutions répétées. Comme l’espé- 
rance des £r,; est égale à 0, on obtient la prévision de yr,n qui est de: 


A T à 1h- 
Ÿr4h = Er (ru ) =XTnBMcoc +P Ër 
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La variance de cette prévision(o-), qui vaut asymptotiquement, se 
calcule comme suit: 


She =68+(6n51"1/T) 


CHE CH [FD (1-62)]+82 (rs —ptr) (XTÈTX) (ar -fhxr) 


5. APPLICATIONS 


Nous recourons de nouveau au modèle de l’impact des jours de la 
semaine sur les indices boursiers que nous avons introduit dans la 
section sur les variables auxiliaires. Nos résultats sont compilés au 
tableau 8.1. 


T'ABLEAU 8.1 


LS // Dependent Variable is LOG(SP50072/SP50072(-1))* 100 
Date : 12/13/99 Time : 21:54 

Sample(ajusted) : 2 503 

Inclued observations : 502 after adjusting endpoints 


Variable Coefficient Std. Error  t-Statistic Prob. 
Ç 0.043659 0.080335 0.543455 0.5871 
M72 —0.319821 0.117947 -2.711565 0.0069 
T72 0.028880 0.114167 0.252962 0.8004 
TH72 0.015556 0.113887 0.136589 0.8914 
F72 —0.017636 0.113887  -0.154857 0.8770 
R-squared 0.023408 Mean dependent var —-0.008239 


Ajusted R-squared 0.015548 S.D. dependent var 0.825708 
S.E. of regression 0.819264  Akaike info criterion —0.388788 


Sum squared resid 833.5829 Schwarz criterion —0.346770 
Log likelihood —609.7212 F-statistic 2.978156 
Durbin-Watson stat 1.562695 Prob(F-statistic) 0.018937 
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La statistique Durbin-Watson (d) est de 1,56, ce qui, en vertu 
des tables qui apparaissent à la fin de ce volume, donne lieu au rejet de 
l’hypothèse HO (absence d’autocorrélation). d est en effet inférieur à 
dy, qui est de 1,73 pour un nombre de degrés de liberté k”° = 4, c’est- 
à-dire 4 variables explicatives excluant la constante, au niveau de 
confiance de 5 % et pour un nombre d’observations (T°) de 200. Cette 
conclusion vaut toujours si nous excluons les variables qui ne sont pas 
significatives dans le tableau 8.1. Dans le logiciel EViews, il est sug- 
géré une procédure simple de correction du problème d’autocorré- 
lation, à savoir rajouter à la régression la variable dépendante retardée 
et réestimer le modèle. On vérifie alors, par le biais de la statistique h, 
s’il y a encore autocorrélation, tout en tenant compte du problème qui 
se crée s’il y a autocorrélation. S’il n’y a pas autocorrélation, on con- 
serve alors la variable dépendante retardée comme variable explicative 
du modèle. 


5. Nous mettons un ” à k car le test exclut la constante du modèle. 


© 2001 — Presses de l’Université du Québec 
Édifice Le Delta I, 2875, boul. Laurier, bureau 450, Québec, Québec G1V 2M2 * Tél. : (418) 657-4399 - www.puq.ca 


Tiré : Traité d'économétrie financière, François-Éric Racicot et Raymond Théoret, ISBN 2-7605-1123-5 + D1123N 


Tous droits de reproduction, de traduction ou d’adaptation réservés 


CHAPITRE 


9 


LES SÉRIES TEMPORELLES 


La modélisation des séries chronologiques vise la prévision à court 
terme sans s'intéresser au caractère structurel des modèles écono- 
miques et financiers, c’est-à-dire les modèles qui expliquent le com- 
portement des variables économiques et financières. La modélisation 
vise simplement le data-fitting, c’est-à-dire l’ajustement d’une série à 
ses propres observations de façon à maximiser la vraisemblance de cet 
échantillon. La modélisation en séries temporelles remonte à l’étude 
publiée par Box et Jenkins! en 1976. Bien que les économètres aient 
alors accueilli cet ouvrage avec une certaine froideur, les techniques 
reliées aux séries temporelles ont par la suite envahi le champ de 
l’économétrie financière. L'ouvrage de Hamilton? (1994) prend acte 
de la complexité qu’a atteint cette branche de l’économétrie. 


1. PROCESSUS STOCHASTIQUES 


Un processus stochastique est une suite de variables aléatoires définie 
sur un même espace W, appelé espace fondamental ou espace des états de 
la nature. Un processus stochastique se formule comme suit : 


y=(yteN) 


1. Box, G.E.P. et G.M. Jenkins (1976), Time Series Analysis : Forecasting and Control, 
Holden-Day, San Francisco. 

2. Hamilton, J.D. (1994), Time Series Analysis, Princeton University Press, New 
Jersey. 
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où N désigne l’ensemble des nombres naturels. Nous recourons à la 
notation plus compacte suivante : 


y ={y:} 


Par exemple: {y,,Y2,...,yr} est une réalisation du processus stochas- 
tique {y.}. Une telle réalisation est souvent appelée #rajectoire du 
processus. 


1.1. Stationnarité 


Il sera ici question de stationnarité faible ou stationnarité de second ordre. 
Un processus {y.} est dit stationnaire si et seulement si: 


i) E(y.)=E(..)e c’est-à-dire que la moyenne du pro- 
cessus est de 1, donc constante ; 


ü) E(y,- u) =Efyrs- u) _ 6; c’est-à-dire que la variance 
est invariable dans le temps ; 


iii) EÏ(y.-u)(y.. -u)]= Er -u)(yes;-u)]=v. L'auto- 
covariance ne dépend donc que de la distance entre deux 
points dans le temps et non d’une date particulière. 


1.2. Processus autorégressifs stationnaires: 
représentation et estimation 


Un processus autorégressif d’ordre p, noté AR(p), se définit comme 
suit : 


Ye = 0 Fire tbyes F0 Ts re, tel, 3 T 


où t dénote le temps e- WN(0,0), et WN est un bruit blanc 
homoscédastique, c’est-à-dire que Cov(e:, es) = 0 pour touttets, E(e:) 
= E(e;) = 0 pour tout t et s et V(e.) = V(e;) = 0? pour tout t et s. Une 
autre représentation de AR(p) couramment utilisée est celle qui recourt 
à l’opérateur de retard L, qui retarde une variable d’une période : 


O(L)y. =Ô0+e, 
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où 8(L)=1-06,L-06,17 -...-0 LP. Voici quelques propriétés de 
l’opérateur L: 


1)  Lc=c, où c est une constante; 
ü) LxLx..xL=L; 
in) Lys = Yi 


iv) (1 _ 1e R =1+L+L7 +. ce qui est la formule de la progres- 
sion géométrique de raison L. 


On peut exprimer AR(p) sous la forme d’une moyenne mobile 
infinie : 


Par exemple, dans le cas particulier d’un AR(1), on a: 


Sy ÿe (Lai) 


1-8, 1=0 


Nous abordons maintenant les propriétés statistiques du pro- 
cessus AR(1). L’espérance du processus AR(1) est la suivante : 


E(y.)=8+0,E(y.:)+E(e,) 


Et si le processus est stationnaire, alors El )= Era) ce qui 
implique : 
Ô 
E(y.)=8+0,E(y.)+0=——=y 
1-8, 


Pour que E(y) soit finie, il faut que 8, #1. En fait, pour respecter les 
conditions de stationnarité, il faut que: 0 <6<1. 


Par ailleurs, la variance de y. est égale à: 
V(y.)= 0; =8V(y.:)+V(e,)= 8 V(y.)+06: 


D'où, 
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L’autocovariance entre y. et y-1 se calcule comme suit : 


Cov(y,,y:1)= E[(y. -u)(ve1- n)] 


Pour simplifier les calculs, supposons que 1 est égal à 0. En rempla- 
çant y. par sa valeur, on obtient: 


Cov(y. > Yt1 ) E E(y.y. 1) = E[(8:y. 1 +e: )y 1 | 


= QE (y) +E(eiyss)=E(r1)" +02 0107 = 0] 


La covariance entre y. et y.+ est égale à 616; = "YL. 


À partir de la fonction d’autocovariance, on peut définir la fonc- 
tion d’autocorrélation (ACF)? comme suit : 


Cov(y.,y:x) 
V(yrJV(yex) 


= Cov(y.,y:x) _ Yk : 6,6; _ gk 
— SH — mul 


V(y.) Yo 6; 


Pr = corr(y. Yex) — 


k=0,+1,+2,.. On constate que la corrélation s’atténue avec k, soit 
la mesure de la distance. La fonction d’autocorrélation est symétrique, 
c’est-à-dire que: P-1 = PL. Comme p, =1 et que la fonction d’auto- 
corrélation est symétrique, on utilisera k>1 lorsqu'on analyse une 
fonction d’autocorrélation. 


2. ESTIMATION DU PROCESSUS AUTORÉGRESSIF AR(P) 


On peut réécrire le processus AR(p) sous la forme suivante : 


e(L)y. =Ü=é, 


3. ACF est l’abréviation de Autocorrelation function en anglais. 
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Pour estimer les paramètres du polynôme 8(L) et du paramètre à, il 
suffit de minimiser la fonction suivante : 


T 
MinS(0,5) = Mine; 


La minimisation de cette somme nous ramène à la méthode des MCO. 
Cependant, dans le contexte de ce processus autorégressif, l’estimateur 
des MCO est biaisé mais convergent. De façon à illustrer ce problème 
de biais et pour expliciter davantage comment on estime ce type de 
modèle, on réécrit le processus AR(p) pour chaque observation de la 
façon suivante : 


Y p+1 — Ô+0,y, +0:y, po pot +ep# 
Y p+2 — Ô +04 +05, +..+0,y2 +ep+2 


VT — ô + 6,yr + 6;,y-r_> FT 8,Yr + êT 
Sous forme matricielle, ce système s'écrit : 
y = XB+e 


Considérons le cas d’un processus AR(1). Sous forme matricielle, on 
a alors: 


Y2 1 Yi €2 
Y3 1 Y2 €3 
ô 
Y = X = B . e = 
6, 
YT L Yri ET 
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On remarque que la variable explicative y2 est reliée à e2, que la 
variable explicative y3 est reliée à e3 et ainsi de suite. En appliquant les 
MCO sur ce processus, on obtient évidemment que: 


B=(x"x) x7y 
Or, 
plimf = 8 


Mais E(X"e) 20 = E(8) # B. Les MCO sont par conséquent biaisés. 


Ce cas se généralise facilement à celui du processus AR(p). 


Dans le modèle AR(p), la variance de B est donnée par : 
nf 1 
V(H)-x'x) 


< 


22 er 
où 6, est égal à: 


(-x$) (x) 
T-2p-1 


G° = 


€ 


3. FONCTION D'AUTOCORRÉLATION PARTIELLE (PACF)4 


Pour déterminer l’ordre p d’un processus autorégressif, on recourt à 
la fonction d’autocorrélation partielle. Dans un processus AR(2), 62 
évalue l’autocorrélation partielle notée par 622 qui peut être estimée 
par les MCO. Si l’on estime un processus AR(3) alors que le vrai 
processus est un AR(2), on devrait observer que 63 n’est pas significa- 
tif. Pour un modèle AR(p), l’autocorrélation partielle d’ordre p, notée 
par 6,, est estimée par 06,. 


Plus précisément, l’autocorrélation partielle 8,, mesure l’asso- 
ciation linéaire entre y. et y-,, compensée pour l'effet des autres 
variables, soit y:1, ye-2 jusqu’à y+,_1. La fonction d’autocorrélation 


4, PACF est l’abréviation anglaise de partial autocorrelation function. 
£ 
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partielle est la suite {011,02, ...,6,,}. La figure 9.1 représente le 
graphique d’une PACF pour un AR(1) d’une série y1 simulée dans le 


logiciel EViews. 


FIGURE 9.1 
Nombre d'observations : 100 
Auttocorrélation  Corrélation partielle AC PAC O-stat Prob. 
= (7 1 0.882 0.882 80.153 0.000 
2 0.781 0.015 143.67 0.000 
3 0.706 0.062 196.04 0.000 
LL] [1] 4 0.593 -0.196 233.45 0.000 
5 0.535 0.177 264.21 0.000 
Û 6 0.474 -0.070 288.58 0.000 
C7] Il 7 0.415 0.047 307.49 0.000 
8 0.361 -0.100 321.93 0.000 
[ 9 0.296 -0.019 331.73 0.000 
O0 0.256 0.043 339.18 0.000 
1 0.185 -0.166 343.10 0.000 
2 0.092 -0.145 34408 0.000 
[ 3 0.021 -0.048 34413 0.000 
[ [ 4 -0.055 -0.022 344.49 0.000 
5 0.146 -0.186 347.05 0.000 
6 -0.185 0.130 351.21 0.000 
[(] 7 —0.194 0.089 355.81 0.000 
I 8 -0.204 0.043 360.97 0.000 


Les droites en pointillés verticales représentent une marge de deux fois l’erreur. 


AC: coefficient d’autocorrélation 
PAC: coefficient d’autocorrélation partielle 


Q-stat: statistique de Box-Pierce-Ljung [16.581] 


Prob. : probabilité de l’hypothèse que tous les coefficients d’autocorrélation soient 


nuls en ce point. 
Source: Johnston, J. et J. Dinardo (1997), op. cit., p. 217. 


L'ordre p d’un modèle AR(p) sera choisi de telle sorte que 844 #0 
pour k = pet 6,, =0 pour k>p. Donc, si 84 est significativement 
différent de 0 pour p = k et égal à 0 pour k>p, on peut alors détermi- 


ner l’ordre par le test suivant : 
HO: 6x = 0 pour k>p 
H1: 6,4, 0 pourk=p 
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Sous l'hypothèse nulle, on sait que: 8,4 est asymptotiquement nor- 


; à 1 
malement distribué avec moyenne 0 et variance égale à : Vlôs) = —. 


On peut alors construire la statistique t asymptotique suivante : 


0 À d 
t= “- \Têyx — N(0,1) 
T 


Le test bilatéral se formule comme à l’accoutumée. On rejette HO 


pour a = 5 % sit > 2. D'où l'intervalle de confiance : 64 + 


2 5 
de 
3. PROCESSUS DE MOYENNES MOBILES : MA(q)° 


Un processus de moyenne mobile, noté MA(q), stationnaire par défi- 
nition, s'écrit comme suit”: 


Ye =U+e, +oe, +0, 2 +….+0e. 


On peut exprimer cette équation sous forme plus compacte en utili- 
sant l’opérateur de retard : 


= u+a(Lje, 


a(L)=1+0,L+0,17+...+0, LA 


et e - WN(O, co). 


5. Nous avons retenu comme seuil critique pour «= 5 % la valeur 2. En fait, quand 
T'se dirige vers l’infini, le seuil critique est de 1,96. À 60 observations, ce seuil 
est de 2. D’où l’approximation de 2 que nous avons retenue. 


6. MA est l’abréviation de l’expression anglaise : #7oving average. q représente l’ordre 
de la moyenne mobile. 


7. Nous avons ici incorporé une constante dans le modèle général d’un MA(q). 
Notons toutefois qu’il est d’usage de l’omettre. 
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Le théorème de Wold 


Nous ouvrons ici une parenthèse sur le théorème de la décomposition 
de Wold (1938), considéré comme fondamental dans le domaine des 
séries temporelles. En vertu de ce théorème, tout processus stochas- 
tique {y:- pu} stationnaire au sens faible et purement non déterministe 
peut être écrit comme une combinaison linéaire (dite encore fi/tre 
linéaire) d’une séquence non corrélée de variables aléatoires. Ce filtre 
linéaire est justement le modèle de moyenne mobile que nous avons 
représenté précédemment mais dont l’ordre q est infini: 


y He: +aess + 0e, +... ÿoue, ; 
i=0 


où &ÿ =1. En termes plus concrets, on peut inverser tout processus 
stationnaire sous forme d’un MA infini qui peut être approximé par 
un ARMA(p, q) d’ordre faible. Ce théorème prend acte de l’impor- 
tance du phénomène de stationnarité dans l’analyse des séries tempo- 
relles. 


Propriétés du processus MA(1) 


Pour démontrer qu’un processus MA est stationnaire, on calcule 
d’abord l’espérance d’un tel processus, ici d’ordre 1. 


Yt— H + €t + Œes 


et e - WN(0, 0.2). Son espérance est de px puisque e, est un processus 
stationnaire. La variance de y. est de: 


V(y.)=V(u+e, +oe.;)=0+0f+a{0; =(1+a?)o} =ÿ 


8. Les MA(q) de q faible sont dits de courte mémoire (short memory). 
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Par ailleurs, 


ni = Cov(peyes)=E[(y, -E(y.))(vea -E(yei))] 

= E[(u+e,+ase.,-u){u+e.; +œe,,-h)] 

= E[(e, +oe.)(e.: +oue. ] 

= Elese, +oyeser_»> + es; +aeiec>| 

= Eloue | 

= 02 
Pour sa part, 7, = Cov(y,,y.)=0. On peut démontrer que pour 
tout k plus grand que 1, toutes les autocovariances sont nulles pour le 


cas du MA(1). On en déduit la propriété suivante pour la fonction 
d’autocorrélation d’un MA(1): 


œ 
= — pour k=1 
Pk =1Yo 1+0; 
0 pour k>1 


Généralisons maintenant pour le cas d’un MA(q). Sa fonction 
d’autocorrélation se présente comme suit : 


q-k 
y Doi 
é = a pour k=0, 1, 2, …, q 
k 7 )Yo 
ai 
L 
0 pour k > q 


Parce que la fonction d’autocorrélation est égale à 0 pour les 
retards supérieurs à q, on peut donc identifier l’ordre d’un MA(q) à 
partir de la fonction d’autocorrélation. En pratique, on estimera la 
fonction d’autocorrélation par : 


T 


D ve-7)(yex 5) 


t=k+1 


© 2001 — Presses de l’Université du Québec 


Édifice Le Delta I, 2875, boul. Laurier, bureau 450, Québec, Québec G1V 2M2 * Tél. : (418) 657-4399 - www.puq.ca 
Tiré : Traité d'économétrie financière, François-Éric Racicot et Raymond Théoret, ISBN 2-7605-1123-5 + D1123N 


Tous droits de reproduction, de traduction ou d’adaptation réservés 


Les séries temporelles 239 


Pour identifier l’ordre d’un MA(q), on utilise le test t comme on l’a vu 
précédemment pour tester HO: rx = 0 versus H1 : p4 #0. Le test se 
formule comme suit: 


Pr —Pk _ 
V(Bx) 


On rejette HO au seuil de & = 5 % si la valeur absolue de t excède 2. On 
peut également construire l’intervalle de confiance de pK comme suit: 


d 
VTT, N(0,1) 


Pr + 


=\È 


4. ESTIMATION D'UN MA(q) 


A l'instar du modèle autorégressif, pour estimer les paramètres d’un 
MA(q) on écrit l’équation des e, et on minimise par la suite la somme 
des erreurs au carré. Plus précisément: 


MIN S{o,0,..,04)= MIN Ye 


O1 02 > Cq OU ,02 0 Uq UT 


où €, =Y, -a(L) e,. S(.) étant une fonction non linéaire de «, on 
aura alors recours aux méthodes d’estimation non linéaires, telles que 
les moindres carrés non linéaires ou encore le maximum de vrai- 
semblance. 


Pour constater que le modèle d’un MA(q) requiert une méthode 
d'estimation non linéaire, on peut se servir d’un modèle MA(1) qui se 
généralisera par la suite au MA(q). Celui-ci s’écrit : 


Vtt Fer 
où on a supposé que est égal à 0. Substituons la valeur de e:1 de 
façon répétée, c’est-à-dire : 
Ye = € FO (ye1 — (y: QE: 3 )) 


L 2 3 
= Er FOiYe rs Air + QE: 3 
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Nous pourrions continuer ces substitutions en remplaçant e: 3 par sa 
valeur. On obtient alors que: 


— 2 3 n—l n 
Er Ve DiVer FOI Ve 2 Die Fee À Vi nu Fes 


On peut réécrire une MA(1) de façon compacte en recourant à l’opé- 
rateur de retard : 


= ù; (Le. = (1+ aL}e, 
Le processus MA(1) peut être inversé pour donner un processus AR 


d’ordre infini à condition bien sûr que la, | <1. On à: 


(1 + aL)" Yt = € 


< 


(ikoL) = [-(-u)L]" = 1+(-a,)L+(-0) L? su) +... 


On voit donc ici que e. est effectivement une fonction non linéaire de 
ses paramètres. C’est pourquoi l’on recourt à une méthode d’estima- 
tion non linéaire. 


5. MODÈLES ARMA (p, q) 


Le modèle ARMA(p, q) est mixte en ce sens qu’il combine modèle 
autorégressif (AR) et modèle de moyenne mobile (MA), d’où son 
appellation ARMA. Le modèle ARMA(p, q) s'écrit comme suit: 


Yt = Ô+6,y.: +0,y, Done +e: 
+: +, > se qet-q 
Sous forme compacte, CE processus s'écrit: 
e(L)y, =8+a(Le, 


où e- est un bruit blanc homoscédastique de moyenne nulle. 
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Propriétés du modèle ARMA(1, 1) 


Avec le modèle AR(1), le modèle ARMA(1, 1) est celui que l’on 
rencontre le plus souvent dans la littérature financière. Il s’écrit comme 
suit : 


Ye — Ô+0,y.: +e: +e, 


où e est un bruit blanc de moyenne nulle et de variance o°. L’espé- 
rance non conditionnelle de y. nous donne l’expression suivante : 


ART 
NT 


Pour le calcul de la variance de y:, nous faisons l’hypothèse que à est 
nul. 


1+ a? +26,@ 
VO) = 10 2 8[ (2) |e oi 
NT 


où l’on suppose que E(y:) est nulle. Alors l’autocovariance se calcule 
comme suit : 


Cov(yssyei1)= V1 
= E(v. -E(y,))(1 Er. ))| = 0,Yo + 162 
et où 
Ye = 01Yr pour k>2 


La fonction d’autocorrélation pour le modèle ARMA(1, 1) est de: 


LVL (1+0,a,)(8, +a.) 


Pi 5 
Yo 1+0; +268,0,; 


et 


Pr = Pr pour k 22 
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Généralisons maintenant au cas du ARMA(p,q). La fonction 
d’autocorrélation de ce modèle est donnée par: 


Pr = 0x1 + 02Px-2 +. +0,Px 


pour k>q. 


6. INTRODUCTION AUX PROCESSUS STOCHASTIQUES 
NON STATIONNAIRES : MODÈLES ARIMA (p, d, q) 


Jusqu'ici, nous avons considéré des processus stationnaires. Cepen- 
dant, en finance, les séries financières sont bien souvent non station- 
naires. Le modèle ARIMA? (p, d, q) est tout désigné pour cette catégorie 
de séries. L’ajout du I dans l’acronyme ARMA désigne l’ordre d’inté- 
gration requis pour atteindre la stationnarité. En effet, on peut rendre 
stationnaire une série non stationnaire simplement en la différenciant. 
Par exemple, un processus intégré d’ordre 1 (d= 1) doit être différen- 
cié une fois pour atteindre la stationnarité. Le qualificatif intégré 
provient du calcul différentiel et intégral. En effet, comme: 


_dye 
X4 = 
dt 
alors, y. est égal à: 
Le [ETC 


Transposons ces équations au cas discret. On a: 
x, = AY, 
où, par analogie avec le cas continu, y. est une somme infinie de x, 


c’est-à-dire : 


X, = AY. =(1-L)y, > Y. =(1-L) "x, =(14+L+L2 +.) x 


t 


ce qui est en fait une somme infinie de x. On voit donc qu’une série 
intégrée d’ordre 1 se ramène à une somme infinie de retards, d’où le 


9. ARIMA est labréviation de: autoregressive integrated moving average. 
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concept d'intégration. Ce cas se généralise à une série intégrée d’ordre 
d, qui revient à différencier la série d fois, donc à effectuer d intégrales. 


Un modèle ARIMA (1,1,0) a la forme suivante: 


Yt = Vritet 


et est en fait un modèle AR(1) où 81 = 1, aussi appelé arche aléatoire. 
Ce modèle doit être différencié une fois pour atteindre la stationnarité, 
c’est-à-dire : 


1 
AYe=Yr-Yei = 

où e, nous l’avons mentionné, est un bruit blanc, par conséquent 

stationnaire. Par conséquent, un processus intégré d’ordre d, c’est-à- 

dire: Aly, = (1- L) ns doit être différencié d fois pour atteindre la 


stationnarité. À titre d'exemple, supposons un processus stochastique 
x. qui est intégré d’ordre 2, soit: 


= (in) = (1-2L+12 }xe =X, —2X; 1 FX.) 


Pour les processus intégrés (non différenciés), les ACF sont très signi- 
ficatives jusqu’à des k (retards) contrairement aux ACF de processus 
stationnaires qui se dirigent vers 0 pour des k élevés. 


7. LA MÉTHODE DE BOX ET JENKINS ‘0 


La méthode de Box et Jenkins consiste à déceler la forme du modèle 
ARIMA qui reproduit le mieux la série financière analysée. Cette 
méthode comporte trois étapes: i) l'identification ; ii) l’estimation ; 
iii) les tests et diagnostics. Dans ce qui suit, nous allons développer ces 
trois étapes. 


10. Box, G.E.P. et G.M. Jenkins (1976), Time Series Analysis : Forecasting and Control, 
Holden-Day, San Francisco. Un autre livre qui est aussi à l’origine de l’analyse 
des séries temporelles et qui adapte la méthode de Box et Jenkins aux sciences de 
la gestion est: Nelson, C.R. (1973), Applied Time Series Analysis for Managerial 
Forecasting, Holden-Day, San Francisco. 
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i) L'identification 


L'identification se base principalement sur l’analyse des ACF et PACF 
des séries économiques et financières considérées. On peut distinguer 
les cas d'espèce suivants : 


1) Si P'ACF décroît lentement vers 0, c’est-à-dire que pour des 
retards éloignés, les coefficients d’autocorrélation demeurent 
significatifs, on considère alors que cette série est non sta- 
tionnaire. On devra alors différencier cette série une fois et 
parfois même deux fois pour la rendre stationnaire. Un 
modèle ARMA d'ordre p et q peu élevé pourra être ensuite 
estimé sur la série stationnarisée. 


2) Pour un processus MA(q), l'ACF : p(k) est égale à O0 pour 
k>q et la PACF décroît géométriquement vers 0. Pour dé- 
terminer l’ordre q de ce processus, il faut comparer l’ACF : 


p(k) avec je 
\T 


3) Pour un processus AR(p), la PACF : 8x est égale à 0 pour 
k>p et P'ACF décroît géométriquement vers 0. Pour déter- 
miner l’ordre p de ce processus, on compare la PACF: 6x 


2 

avec E—, 

\'E 

4) Si l’on ne trouve pas de point de rupture précis, un modèle 
ARMA pourrait être pertinent. Par exemple, étant donné 
qu’un ARMA(1, 1) est une combinaison d’un modèle AR et 
d’un modèle MA, on s’attend à ce que 'ACF ait les caracté- 
ristiques des modèles AR et MA combinés. La portion MA 
disposant d’une mémoire d’une période seulement, le point 
de rupture devrait se produire après une période. Par ailleurs, 

P P P P 

la composante AR dispose d’une ACF qui décroît géométri- 
quement et on anticipe ce profil pour des retards supérieurs 
à une période. 


ii) L'estimation 


Si un modèle AR a été identifié, alors l’estimation se fera par les 
MCO. Par ailleurs, si on a identifié un modèle MA, l'estimation se 
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fera par les moindres carrés non linéaires (NLS) ou par la méthode 
ML. Si un modèle ARMA 2 été identifié, l’estimation s’effectuera par 
la méthode des NLS ou la méthode ML, ou encore par la méthode 
des MCO en deux étapes!!. 


iii) Tests et diagnostics 


Dans cette sous-section, nous traitons de la surparamétrisation (over- 
fitting) et des tests sur les résidus. 


La surparamétrisation 


Si un modèle ARIMA(p, d, q) a été identifié, la surparamétrisation 
consiste à estimer un modèle ARIMA(p + 1, d, q) ou un modèle ARIMA 
(p, d, q + 1) ou les deux et faire un test sur le ou les paramètres addi- 
tionnels. Si le vrai modèle est un ARIMA(p, d, q), les tests sur les 
paramètres additionnels ne devraient pas être significativement diffé- 
rents de 0. 


Analyse des résidus 


Une fois l’estimation des modèles ARIMA complétée, on calcule les 
résidus de façon à dégager les ACF et PACF de ces résidus. On devrait 
trouver que la fonction d’autocorrélation est non significative pour 


: 2 — 
tous les retards en comparant 4 à Une procédure plus scienti- 
T 


fique est de calculer le test Ljung-Box (1978). Ce test, que l’on désigne 
par la statistique Q, se formule comme suit: 


pk 
T-k 


K 
Q=T(T+2)) 
k=1 


11. Au sujet de la méthode des moindres carrés en deux étapes, on consultera: 
Gouriéroux, C. et A. Monfort (1990), Séries temporelles et modèles dynamiques, 
Economica, Paris. 
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L'hypothèse HO est la suivante: p, =p, =..=p, =0. Ce test est 
asymptotiquement distribué comme une x?(k-p-q). 


8. AUTRES CRITÈRES DE SÉLECTION 
POUR LES MODÈLES ARMA 


On peut distinguer deux critères de choix de modèles : celui d’Akaike 
(1973) et celui de Schwarz (1978). Le critère d’Akaike, désigné par 
AICP, se définit comme suit: 


Par ailleurs, le critère de sélection de Schwarz, désigné par SC, se 
calcule comme suit : 


TA 
1 
SC Er) 
T T 


Ces deux critères remplacent le R? dans l’analyse des séries tempo- 
relles. On cherche le modèle qui donne la valeur minimale à ces deux 
statistiques. Par exemple, si un ARMA(1, 1) se traduit par des statis- 
tiques AIC et SC plus faibles qu’un ARMA(2, 1), on choisira le modèle 
ARMA(1, 1). 


On remarquera que les deux critères pénalisent l’ajout de degrés 
de liberté, ce qui milite en faveur du principe de la parcimonie dans 
l'établissement d’un modèle, ce qui se compare davantage au R? ajusté 
qu’au R? non ajusté. 


12. AIC est l’abréviation anglaise de: Akaike Information Criterion. 
13. SC est l’abréviation anglaise de: Schwarz Criterion. 


© 2001 — Presses de l’Université du Québec 


Édifice Le Delta I, 2875, boul. Laurier, bureau 450, Québec, Québec G1V 2M2 * Tél. : (418) 657-4399 - www.puq.ca 
Tiré : Traité d'économétrie financière, François-Éric Racicot et Raymond Théoret, ISBN 2-7605-1123-5 + D1123N 


Tous droits de reproduction, de traduction ou d’adaptation réservés 


Les séries temporelles 247 


9, PRÉVISIONS À L'AIDE DE MODÈLES STATISTIQUES 
DE SÉRIES CHRONOLOGIQUES 


Une fois un modèle spécifié, estimé et testé, on peut l'utiliser pour 
effectuer des prévisions. Envisageons d’abord le cas d’un modèle 
ARMA(1, 1). 


Prévision à l'aide d'un modèle ARMA(1, 1) 


Le modèle ARMA(1, 1) se formule comme suit: 
Yi Ô+ 6,y.: + €t + Œer 


Soit h le nombre de périodes à l’avance au chapitre de la prévision. 
Considérons d’abord le cas où h est égal à 1. Nous sommes à la fin de 
l'échantillon T. Nous voulons prévoir l'observation en (T° +1) qui se 
trouve dans le futur immédiat. On a, en vertu du modèle ARMA(1, 1): 


Yru = 0 +01ÿr +eru +Oer 


L’espérance conditionnelle (Er) de cette équation correspond à la 
prévision MMSE (yrinimum mean square error) de Yr:1: 


Ÿru = Er (Yra ) = Ô0+6;yr+0+aœer 


où l’espérance conditionnelle! * de er. est nulle et E-(a,e-)= er. 
Incidemment, on se sert de l’espérance conditionnelle pour formuler 
des prévisions à court terme et de l’espérance inconditionnelle pour 
formuler des prévisions à long terme. La variance de l’erreur de 
prévision se calcule comme suit: 


V(êru ) — V(yru : Ÿru ) — V(eru ) — (Os 
Soit ensuite le cas où h=2, cas où l’on calcule la prévision de y 
deux périodes à l’avance. Toujours en vertu du modèle ARMA(1, 1), 
on a: 
Ÿr+2 = Er (Yr22 ) = Er (à +61Yru + ere + ie ) 
=Ô+0,Er (Yra ) =Ô0+6ÿru 


14. Conditionnelle à l’information disponible jusqu’à la fin de Péchantillon T. 
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L'erreur de prévision est bien sûr: 


Êr42 = Yre2 — Ÿre = Ô + B1Y ru + Er42 + Ur — 0 —B1Ÿ ra 
= 0; (Yra —YTH ) +ery2 + er 


= (e, +: ) ET: + ET 


Fort de ces calculs, on calcule la variance de l’erreur de prévision : 
A 2 2 > 2 2 
V{êrs)=(0, +a) 62 +62 LC +@:) +1) 
En procédant de la sorte, pour h = 3, on obtient: 


Ÿras = Ô +01 Ÿ ru 


et la variance de l’erreur de prévision est de: 


V(êra)=02)14 (6, +0) +(e? sou) | 


Comme on l’aura constaté, les prévisions sont obtenues par subs- 
titutions répétées dans le modèle initial ARMA(1, 1). Déplaçons-nous 
vers le modèle général ARMA(p, q) qui se formule comme suit : 


Ye = dH6 pin roy het, Fes Foie te toe.. 


On peut effectuer une prévision pour h périodes périodes à l’avance ; 
on calcule l’espérance conditionnelle et on obtient : 


Yon = O+01Ÿ rent + 02Ÿrah-2 + + 0p1Ÿ ru 
+0 Tr +. +0 rh + Er ++ Lo ET ah 


L’intervalle de confiance de cette prévision est de: 


1 
ŸT+h +z Ver }2 


où Z. est la valeur critique d’une N(0, 1) au niveau a retenu. Mention- 
nons que cet intervalle de confiance est asymptotique, c’est-à-dire que 
l'échantillon doit être suffisamment grand si l’on utilise des estimés 
des paramètres à la place des paramètres comme tels pour effectuer les 
calculs précédents. 
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10. ÉVALUATION DE LA PRÉCISION DES PRÉVISIONS 


On distingue quatre critères pour évaluer la précision des prévisions : 
i) le RMSE (root mean square error) ; 2) le MAE (rnean absolute error) ; 
les deux statistiques U de Theil. Ces critères donnent lieu au choix 
d’un modèle qui minimise lesdits critères. 


Le RMSE est égal à: 


où n, représente le nombre de périodes prédites. 


Pour sa part, MAE se définit comme suit: 


Do 


Remarquons que ces deux critères sont sujets à des problèmes d’unités 
de mesure. Les deux statistiques U de Theil corrigent pour ce pro- 
blème. La première, dénotée par U, est égale à: 


(1/ no)} (y: EN 


(1/n, JD; 


Remarquons que cette mesure est reliée au R? mais n’est pas limitée 
à l’intervalle (0, 1). Une mesure apparentée consiste à calculer les 
variations de y: 


= 


(1/n0)} (av: — Aÿ;) 


(7) y 
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Toutes ces mesures mesurent la capacité des modèles à capter les 
différents points de retournement des séries temporelles. 


11. APPLICATIONS 


Pour illustrer ce chapitre ayant trait aux séries chronologiques, nous 
nous basons sur une série chronologique ayant trait au marché obliga- 
taire. Le rendement retenu est celui de l’obligation corporative amé- 
ricaine cotée Aaa selon le système de notation Moody’s. Les données 
sont mensuelles et s’étirent de 1990 à 199415. La figure 9.2 retrace 
l’évolution de ladite série sur la période considérée, dénommée Y. Ce 
graphique a été généré par le logiciel EViews. 


FIGURE 9.2 


10 
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1990 1991 1992 1993 1994 
+ 


15. Cette série est tirée de Greene (2000), op. cit. 
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Un examen rapide de la figure 9.2 semble révéler que cette série 
n’est pas stationnaire. Pour vérifier l'hypothèse de stationnarité, nous 
présentons, à la figure 9.3, les calculs et graphiques quant aux 
autocorrélations totales et partielles. 


FIGURE 9.3 


Date : 08/30/00 Time: 11:48 
Sample : 1990:01 1994:12 
Included observations : 60 


Corrélogramme de Y 


Auttocorrélation  Corrélation partielle AC PAC O-stat Prob. 
1 0967 0.967 58.904 0.000 

2 0.909 -0.384 111.90 0.000 

3 0.853 0.143 159.37 0.000 

4 0.795 -0.150 201.33 0.000 

5 0.736 0.020 237.93 0.000 

6 0.674 -0.101 269.26 0.000 

7 0.606 -0.123 295.02 0.000 

8 0.530 -0.090 315.15 0.000 

1 9 0.451 -0.082 330.00 0.000 
O0 0.379 0.110 340.70 0.000 

1 0.318 0.015 348.36 0.000 

(| 2 0.260 -0.043 353.59 0.000 
3 0.209 0.106 357.04 0.000 

4 0.165 -0.025 359.25 0.000 

] 5 0.127 0.053 360.57 0.000 
6 0.095 0.000 361.33 0.000 

[] 7 0.059 -0.207 361.63 0.000 

| 8 0.014 -0.131 361.65 0.000 
9 -0.030 -0.020 361.74 0.000 

Û 20 -0.069 0.035 362.17 0.000 
1] 21 -0.103 -0.072 363.19 0.000 
22 -0.136 0.003 365.00 0.000 

23 -0.165 0.026 367.75 0.000 

= 24 -0.190 0.092 371.47 0.000 
25 -0.218 -0.116 376.50 0.000 

Li 26 -0.251 -0.070 383.42 0.000 
| 27 -0.284 -0.094 39254 0.000 
28 -0.311 0.028 403.81 0.000 


En examinant la structure des autocorrélations totales, on peut 
observer des autocorrélations persistantes pour des retards éloignés, 
ce qui pourrait indiquer que l’hypothèse de non-stationnarité pourrait 
être violée. Mais, pour l'instant, nous mettons en veilleuse ce problème 
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pour nous concentrer sur les ACF de la série qui semblent indiquer 
qu’un modèle AR(2) est approprié. L’estimation de ce modèle appa- 
raît au tableau 9.1. 


T'ABLEAU 9.1 


Dependent Variable : Y 

Method: Least Squares 

Date : 08/30/00 Time: 11:51 

Sample : (ajusted) : 1990:03 1994:12 

Included observations : 58 after adjusting endpoints 
Convergence achieved after 3 iterations 


Variable Coefficient Std. Error  t-Statistic Prob. 
C 7.876779 0.441819 17.82807 0.0000 
AR(1) 1.156648 0.110660 10.45226 0.0000 
AR(2) —0.208293 0.110161  —1.890803 0.0639 
R-squared 0.962990 Mean dependent var 8.254138 


Ajusted R-squared 0.961644  S.D. dependent var 0.794039 
S.E. of regression 0.155511 Akaike info criterion —0.833866 


Sum squared resid 1.330096 Schwarz criterion —0.727292 
Log likelihood 27.18212 F-statistic 715.5335 
Durbin-Watson stat 1.418410 Prob(F-statistic) 0.000000 
Inverted AR Roots .93 .22 


Examinons la stationnarité de cette série à partir des coefficients 
estimés des retards sur la variable dépendante. Mais auparavant, rap- 
pelons les conditions de stationnarité pour un AR(2). Dans ce cas, la 
série converge si les coefficients du AR(2) respectent les conditions 
suivantes: 1) 18,|<1; 2) 8,+8, <1; 3) 6, -6, <1. Nous pouvons 
vérifier au tableau 9.1 que ces trois conditions sont respectées pour la 
série analysée. De façon plus générale un processus autorégressif 
d'ordre p est stationnaire si les racines de l’équation caractéristique 
suivante : 


C(z) =1-0,z-0,z° ane CE 


ont un module supérieur à 1 ou, de façon équivalente, se situent à 
lPextérieur du cercle unitaire. 
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La figure 9.4 présente l’analyse des résidus du modèle estimé. 
On observe que les ACF et les PACF pour tous les retards ne sont pas 
significatifs. Cela confirme que les résidus obéissent à un processus de 
bruit blanc. Et l’on en conclut que le modèle choisi est le bon puisqu'il 


capte toute l’autocorrélation présente dans la série. 


FIGURE 9.4  Corrélogramme des résidus 


Date : 08/30/00 Time: 11:56 

Sample : 1990:03 1994:12 

Included observations : 58 

Q-statistic probabilities adjusted for 2 ARMA term(s) 


Auttocorrélation  Corrélation partielle AC PAC O-stat Prob. 

1 0.213 0.213  2.7781 

il 2 -0.007 -0.055  2.7814 
3 —0.022 -0.009 2.8127 0.094 
4 0.108 0.120 3.5635 0.168 
[] 5 0.079 0.030 39770 0.264 
Î 6 0.045 0.028 41134 0.391 
7 —0.062 -0.072 43771 0.496 
| (] 8 0.032 0.059 44499 0.616 
[ E 9 -0.065 -0.104 4.7470 0.691 
[ O -0.069 -0.049 5.0933 0.748 
| RA| 1 0.038 0.080 5.1980 0.817 
2 0.134 -0.189 6.5464 0.767 
3 -0.141 -0.059 8.0869 0.705 
LL 4 -0.136 -0.092 9.5540 0.655 
L_] 5 -0.206 -0.194 12.994 0.448 
Û 6 -0.058 0.031 13.277 0.505 
[] 7 0.086 0.114 13.905 0.533 
Î [ 8 0.051 0.054 14.129 0.589 
Û 9 -0.057 -0.061 14.419 0.637 
[ [ 20 -0.029 0.061 14.497 0.696 
Û | 21 -0.044 -0.077 14677 0.743 
[l 22 0.026 -0.044 14.740 0.791 
23 -0.086 -0.076 15.482 0.798 
Î [] 24 0.060 0.075 15.856 0.823 


Séries temporelles non linéaires 


Selon Franses (1998)16, une série temporelle est non linéaire quand 
des chocs importants ont un impact différent de chocs de moindre 


16. Franses, P.H. (1998), Time Series Models for Business and Economic Forecasting, 


Cambridge University Press, Cambridge. 
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envergure dans le sens que impact d’un choc n’est pas proportionnel 
à son importance. La non-linéarité peut aussi signifier que l’impact 
d’un choc dépend de son signe. Pour modéliser le caractère non 
linéaire des séries temporelles, nous envisageons ici deux méthodes 
d’estimation : la méthode STAR, soit un processus autorégressif de 
transition lisse ou sans cassures (s100th), et le modèle économétrique 
basé sur les réseaux de neurones, que nous désignerons par ANN. 


Le modèle STAR 
Supposons que la série temporelle y. suive le processus suivant : 


Yi — Ô + OV &-1 + F(y. 4 )(v pr ÀF 1 ) FE: 


où F(y+-4) est une fonction quelconque de la variable y& 4, dite variable 
de transition. Ce modèle, désigné par STAR!, est la combinaison 
d’un modèle linéaire AR(1) et d’un modèle non linéaire quand F(y+ 4) 
n’est pas nul. On peut interpréter à F(y:_a) et À F(y& a) y:1 comme des 
composantes qui rendent variables dans le temps l’intercept et le 
paramètre autorégressif de premier ordre. La fonction de transition 
F(.) est habituellement choisie de telle sorte que ses réalisations se 
situent dans l’intervalle [0, 1]. Par conséquent, quand F(.)=0, y. peut 
être décrit comme un processus autorégressif AR(1) pur: ô+@y,1. 
Par ailleurs, quand F(.)=1, un processus AR(1) avec les paramètres 
(Ô+1W) et (p+X) s'avère pertinent. Finalement, quand O<EF(.)<1, y 
peut être décrit comme une somme pondérée de deux processus AR 
linéaires. Cela suggère une forme alternative pour y: 


Yi: = (1-F(y. 4 )(6: +oye1)+F(ye4 \5; + OYr1)+E 


On remarquera que lorsque «= 1 (ou même supérieur à 1), les effets 
des innovations €, sur la série y. peuvent encore n’être que transitoires. 
En d’autres mots, la stationnarité de y: dépend de «1, æ et de la forme 
spécifique de la fonction F(.). Franses (1998) note que tester la 
stationnarité de y. est une entreprise difficile. 


17. Soit l’abréviation de l’expression anglaise : sz00th transition autoregressive. 
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La fonction de transition F(.) peut prendre plusieurs formes : i) la 
forme exponentielle suivante, qui donne lieu au modèle ESTAR: 


F(yr4)=1- re) 


où y > 0; ii) la fonction logistique suivante, qui donne lieu au modèle 


LSTAR: 


F(yi4)= É +et-earc) L 


où y > 0; la fonction suivante, qui donne lieu au modèle AR à paliers 
ou à seuils, encore désigné par modèle TAR' : 


F(yea)=0 pour ya <c 


F(y.4) =] pour y:4q > C 


Le paramètre c est appelé: paramètre de palier (threshold parameter). 
Le modèle AR est un cas spécial du modèle LSTAR quand y - c. 
Dans le modèle ESTAR, y: réagit de façon symétrique aux valeurs 
positives et négatives de (y:4- c) tandis que dans le modèle TAR, le 
changement de régime est abrupt. Le modèle LSTAR comporte pour 
sa part des changements lisses ou sans cassures (s100th) et des réac- 
tions asymétriques aux chocs, ce qui rehausse son attrait par rapport 
aux deux autres modèles. 


Le modèle économétrique basé sur les réseaux 
de neurones (ANN) 


Le modèle ANN (artificial neural network) peut être combiné à une 
série temporelle qui obéit à une dynamique autorégressive de premier 
ordre. En supposant qu’il n’y ait qu’une seule couche cachée dans le 
réseau de neurones, ce modèle économétrique s’écrit comme suit : 


q 
Ve Ô +0Y:1 +Y'B;G(v; +Ayis J+e, 
j=1 


18. TAR est l’abréviation anglaise de: threshold autoregressive. 
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où q désigne le nombre de cellules cachées dans la couche. Contraire- 
ment au modèle STAR, le modèle ANN se traduit par un intercept 
variable dans le temps. La fonction G(.) prend habituellement la 
forme de la fonction logistique suivante : 


G(v. +Ajyei : 1 + var) (I 


La fonction G(.) est appelée fonction d'activation logistique puisque la 
composante non linéaire du modèle ANN ne devient active que si 


l'argument (v, +A;yei) est assez important. À l'instar du modèle 
LSTAR, le modèle ANN peut décrire des changements de régimes 


dans les séries temporelles, en autant que ces changements se confi- 
nent aux intercepts. 


Quand q devient relativement important, le modèle ANN peut 
approximer de façon très précise toute fonction : 


f(y:)=f(yi)+e 


Par conséquent, le R? d’un modèle ANN peut se rapprocher facile- 
ment de 1 lorsque q est élevé. Puisque le modèle ANN fait la somme 
d’un ensemble de fonctions logistiques, il est toutefois difficile d’inter- 
préter les valeurs des paramètres des fonctions G{.). 


Pour estimer les paramètres des modèles STAR et ANN, on 
recourt à un algorithme d’estimation non linéaire. Franses (1998) 
suggère d'adopter la stratégie suivante pour estimer ces paramètres. 
On fixe d’abord les paramètres y et c à des niveaux donnés et on 
estime les autres paramètres par la méthode des MCO. On estime 
ensuite les paramètres y et c par étapes par la méthode des moindres 
carrés non linéaires. Certes, la valeur de d dans y. 4 est incertaine et il 
faut effectuer plusieurs essais sur cet indice de façon à déterminer la 
régression qui comporte le R? le plus élevé. Franses (1998)!° a appliqué 
le modèle LSTAR à la première différence du taux de chômage tri- 
mestriel allemand sur une période s’étirant de 1962 à 1990. Il à trouvé 
que le d optimal était de 1. Le résultat de son estimation est le suivant: 


19. Franses (1998), op. cit., p. 183. 
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ay, =(1- (ay, ))(-0,040+0,4544y,;) 
+F(Ay,:)(1901-1,8404y, ;)+ê, 


a 
où F(Ay.: ) =|1+ ns sr | . On peut tirer plusieurs infor- 


mations d’une telle estimation qui alterne entre le régime de reprise 
économique et celui de récession. D’abord, en vertu de l’estimation, si 
Ay, > 0,500, la fonction À prend une valeur rapprochée de 1, ce qui 
se traduit dan ce modèle par une récession du point de vue de l emploi. 
En traçant le graphique de À en fonction du temps, on peut ainsi 
identifier les périodes de récession et de reprise économique. Ensuite, 
on peut relier graphiquement À et Ay,1, Ê étant sur l’ordonnée et 
Aÿ:- , sur l’abscisse. On obtient alors la fonction de transition des 
récessions aux reprises économiques. Finalement, si l’on identifie un 
trimestre de récession à une valeur de F excédant 0,5, on peut identi- 
fier les sommets et les creux du cycle économique dde 


L’ajout de composantes non linéaires aux modèles autorégressifs 
élargit donc de beaucoup le champ de l’analyse économétrique des 
séries chronologiques et augmente d’autant l’attrait de ce type d’ana- 
lyse. En recourant aux réseaux de neurones, on peut même en arriver 
à reproduire quasi exactement toute série temporelle y.! Par ailleurs, 
les réseaux de neurones ont également été utilisés dans un contexte 
GARCH par Donaldson et Kamstra (1997)° pour estimer la volatilité 
du S&P500, entre autres. Pour plus de détails sur ce domaine capti- 
vant de l’économétrie, le lecteur consultera avec intérêt: Granger et 
Teräsvirta (1993); Teräsvirta, Tjostheim et Granger (1994); De 
Gooiïjer et Kumar (1992) ; Tong (1990) ; Bishop (1995); Ripley (1994) ; 
Kuan et Liu (1995); Kuan et White (1994); Swanson et White 
(19951. 


20. Donaldson, R.G. et M. Kamstra (1997), « An Artificial Neural Network-GARCH 
Model for International Stock Return Volatility », Journal of Empirical Finance, 4, 
p. 17-46. 


21. Granger, C.W.J. et T. Teräsvirta (1993), Modelling Nonlinear Economic 
Relationships, Oxford University Press, Oxford ; Teräsvirta, T., D. Tjostheim et 
C.W.J. Granger (1994), « Aspects of Modelling Nonlinear Time Series », dans: 
Engle, R.F. et D.L. McFadden (dir.), Handbook of Econometrics, volume IV, North 
Holland, Amsterdam; De Gooijer, J.G. et K. Kumar (1992), « Some Recent 
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12. PROCESSUS STOCHASTIQUES NON STATIONNAIRES 


Dans cette section, nous nous penchons sur les sujets suivants: pro- 
cessus de marche aléatoire, processus de marche aléatoire avec ten- 
dance, tests de stationnarité et cointégration. 


Marche aléatoire (random walk) 


Une marche aléatoire est un processus stochastique non stationnaire 
qui se définit comme suit dans sa version simplifiée : 


Yt = Vritet 


où e - WN(0, o°). Ce processus est un AR(1) sans constante où 
6, =1. Si l’on différencie une fois ce modèle, i.e. Ay, =y,-y,,=e,, 
on obtient alors un processus stationnaire. Si l’on veut tester l’effi- 
cience des marchés financiers dans ce contexte, l’hypothèse nulle est 
alors : H0: 6; = 1, où y. est le rendement d’un titre. Si cette hypothèse 
est vérifiée, les marchés financiers sont alors efficients. Un autre façon 
de vérifier l'efficience est d’examiner le profil de 'ACF de Ay.. S’il 
correspond à celui d’un bruit blanc, on à alors efficience. 


Le processus qui vient d’être décrit correspond à celui d’une 
marche aléatoire avec tendance stochastique (tendance non tempo- 
relle). Précisons ce point. Par substitutions successives dans l’équation 
de base de la marche aléatoire, on obtient: 


t 
Ye = Yo +Ye, 
il 


Developments in Non-linear Time Series Modelling, Testing and Forecasting », 
International Journal of Forecasting, 8, p. 135-156; Tong. H. (1990), Non-linear 
Time Series. À Dynamical System Approach, Oxford University Press, Oxford ; 
Bishop, C.M. (1995), Neural Networks for Pattern Recognition, Oxford University 
Press, Oxford ; Ripley, B.D. (1994), « Neural Networks and Related Methods for 
Classification », Journal of the Royal Statistical Society, 56, p. 409-456 ; Kuan, C.M. 
et T. Liu (1995), Forecasting Exchange Rates using Feedforward and Recurrent 
«<Neural Networks», Yournal of Applied Econometrics, 10, p. 347-364; Kuan, 
C.M. et H. White (1994), « Artificial Neural Networks: An Econometric Pers- 
pective >», Econometric Reviews, 13, p. 1-91; Swanson, N.R. et H. White (1995), 
«A Model Selection Approach to Assessing the Information in the Term Struc- 
ture Using Linear Models and Artificial Neural Networks », Yournal of Business 
and Economic Statistics, 13, p. 265-275. 
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Selon cette équation, ce processus de marche aléatoire ne comporte 
pas de tendance temporelle particulière. Si on calcule l’espérance non 
conditionnelle de cette valeur, on 2: 


E(y:)= yo 


On en déduit donc la propriété que la moyenne d’une marche aléa- 
toire avec tendance stochastique est constante. L’espérance condi- 
tionnelle, quant à elle, du processus de marche aléatoire se calcule: 


AA ) nr 


Par conséquent, du processus de marche aléatoire avec tendance sto- 
chastique, on déduit le résultat que l’espérance conditionnelle, qui est 
une prévision à court terme, est non constante alors que l’espérance 
non conditionnelle est pour sa part constante. 


De façon similaire : 


S 
Ytts — Yt + Ye 
i=1 


Ce processus comporte un trend stochastique parce que le trend 
stochastique est la somme des termes d’erreur. Il en résulte que les- 
pérance conditionnelle n’est pas affectée par ce trend de termes d’er- 
reur inconnus, c’est-à-dire : 


E; (Yu ) nr 
Pour sa part, la variance de y. est de: 


t 


V(y.)=0+Y V(e;)=to* 


il 
’aprè ésultat, 1 he aléatoire n’est d 
D'après ce résultat, la marche aléatoire n’est donc un processus sta- 


tionnaire puisque sa variance augmente avec le temps. 


En finance, une martingale correspond en temps discret à une 
marche aléatoire. On dit en effet qu’un processus stochastique est une 
martingale relativement à l’ensemble d’information I. si: 


E,(y.u ) nr 
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Autrement dit, la meilleure prévision de y:,1 est y:, soit l’observa- 
tion antérieure. On retrouve bien ici le processus de marche aléatoire. 
En finance, des exemples de séries suivant une martingale sont les 
cours des actions et les taux d'intérêt. 


Marche aléatoire avec tendance 


Nous présentons ici le modèle avec drift. Ce modèle est celui d’une 
marche aléatoire auquel s’ajoute une constante. Ce modèle est le 
suivant : 


Ye ao tYri te: 
où a9 est une constante. Il convient de montrer la présence d’une 
tendance dans un tel processus. Par substitutions répétées, on a: 


t 
Ya = Yo +aot+ Ye; 
i=1 
Ce processus présente deux formes de trends : i) un trend déterministe 
t 


représenté par avt; ii) un trend stochastique, représenté par De; ‘On 


. : . i=1 
voit que l’espérance d’un tel processus se modifie dans le temps. La 
prévision E(yun) est : 


AA ) — Ye +aoh 


13. MODÈLES DE TENDANCE 


Une équation de différence peut être éclatée en trois composantes : 
yr = trend + composante saisonnière + composante irrégulière 


Nous avons vu auparavant comment modéliser la composante irrégu- 
lière à partir d’un modèle ARMA(p, q). Nous faisons ici litière de la 
composante saisonnière, abordée sommairement dans une section 
antérieure ayant trait à l’effet du lundi sur les cours boursiers. Nous 
nous concentrons plutôt ici sur la composante tendancielle ou trend 
d’une série chronologique. Nous faisons ici référence à l’indice bour- 
sier américain S&P500 qui fait montre d’une tendance à la hausse. 
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Comment peut-on modéliser cette tendance de façon rigoureuse ? 
Deux techniques sont couramment utilisées à cet effet: i) le trend 
temporel linéaire ; ii) le trend temporel polynomial. 


Le trend linéaire se présente comme suit: 
Yt — 40 +ait+e, 
Pour sa part, le trend polynomial se formule comme suit: 
Ye =ag +ait+at/+.+a t"+e, 


Ces deux équations peuvent être estimées par les MCO. Ces deux 
équations peuvent également comporter des retards sur y. et e. On 
obtient alors un modèle ARMA(p, q) auquel s’additionne un trend 
polynomial. 


Pour enlever la tendance, il existe deux techniques : i) la différen- 
ciation ; ii) la technique du retrait de la tendance (detrending). 


D'abord la différenciation. Considérons la solution du modèle de 


t 
marche aléatoire avec tendance non temporelle : Y: = Yo +aot + ÿe és, 
°CC2 à . i=1l 
En calculant la différence première, on obtient : . 


AY. — 0 + ap + êt 
L’espérance de Ay. est de: 
La variance de Ay. est de: 
V(ay.) = 6° 
ec: 
Cov(Ay,,Ay.. ) = 0 


Toutes les propriétés d’un modèle stationnaire sont donc au rendez- 
vous. 


L'autre technique utilisée pour enlever la tendance est le 
detrending. Nous venons de voir qu’un modèle non stationnaire peut 
être transformé en un modèle stationnaire seulement en le différenciant. 


© 2001 — Presses de l’Université du Québec 


Édifice Le Delta I, 2875, boul. Laurier, bureau 450, Québec, Québec G1V 2M2 + Tél. : (418) 657-4399 — WWW.puq.ca 
Tiré : Traité d'économétrie financière, François-Éric Racicot et Raymond Théoret, ISBN 2-7605-1123-5 + D1123N 


Tous droits de reproduction, de traduction ou d’adaptation réservés 


262 Traité d’économétrie financière 


Cela ne signifie pas que tous les modèles non stationnaires peuvent 
être transformés en modèles stationnaires. Pour illustrer, considérons 
le modèle suivant. 


Yt —A) +ait+e, 


Pour extraire le trend, on estime le modèle par les MCO. On obtient: 


A A 


VERT 


Ÿ. — a % ait 
On pourrait par la suite appliquer un modèle ARMA sur les résidus et 
déterminer les techniques étudiées auparavant pour déterminer l’ordre 


de ce modèle. Au lieu d’effectuer cette régression, on aurait pu exprimer 
yr en première différence, soit : 


AY: ag +er — Er 


On constate que la partie en moyenne mobile (MA) comporte une 
racine unitaire. Ce modèle ne peut donc pas être inversé sous une 
forme autorégressive. 


De façon générale, pour éliminer la tendance, on estime le 
modèle à trend polynomial par les MCO et, pour déterminer le degré 
de ce polynôme, on recourt aux tests t, aux tests F ou aux critères 
Akaike et Schwartz. Le modèle à trend polynomial s’écrit : 


Ve = ap +ajt+ast” +..+a t°+e. 


En appliquant les MCO sur cette équation, on obtient ÿ,. En 
soustrayant ÿ, de y:, on obtient alors la série stationnaire : {ê.}. 


Séries en différence stationnaire (DS) 
ou en tendance stationnaire (TS) 


Jusqu'ici, nous avons examiné deux catégories de séries non station- 
naires : 
i) la série en différence stationnaire (DS) 


ii) la série en tendance stationnaire (TS) 
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Les séries DS sont transformées en différence stationnaire en les 
différenciant. Quant à elles, les séries en tendance stationnaire sont 
rendues stationnaires en éliminant le trend par la modélisation de ce 
dernier. Mais un sérieux problème se présente lorsque, dans ce der- 
nier cas, l’on enlève le trend en différenciant plutôt qu’en le modéli- 
sant. Pour le constater, considérons le modèle ARMA(p, q) suivant : 


O(L)y, 0 +ot+®P(L}e, 


où les racines du polynôme O(L) et P(L) se situent en dehors du 
cercle unitaire. Ce modèle est TS puisqu'il ne comporte aucune racine 
unitaire. Supposons quand même que l’on élimine le trend en le 
différenciant. On obtient: 


@(L)y*, = +(1-L)P(L}e, 


La différenciation a fait apparaître une racine unitaire dans la partie 
MA du processus. De façon parallèle, éliminer par modélisation du 
trend le trend d’un modèle DS ne se traduit par aucun retrait du trend 
stochastique. 


14. RACINES UNITAIRES ET RÉGRESSIONS FALLACIEUSES 


Comme nous l’avons vu, une racine unitaire dans un modèle AR(1) 
correspond à un coefficient unitaire dans l’autorégression. Nous obte- 
nons alors une marche aléatoire reliée à l’efficience des marchés finan- 
ciers. Attardons-nous maintenant au problème de racine unitaire dans 
une régression linéaire. Soit le modèle de régression suivant : 


Yt 40 cd a1Zt +e: 


où l’on suppose que E(zse:) = 0. Les modèles où les variables explica- 
tives sont stochastiques requièrent qu’elles soient stationnaires. Mais 
si yt et Z. sont non stationnaires, on pourrait être confronté à une 
régression fallacieuse (spurious regression). Une telle régression n’a 
aucune valeur. Elle présente les symptômes suivants: 1) une faible 
Durbin-Watson; 2) un R? élevé; 3) des statistiques t significatives. 
Les résultats pourraient paraître acceptables à prime abord mais 
l’estimateur des MCO est alors non convergent et les tests statistiques 
usuels sont non valables. Par exemple, Granger et Newbold (1974) 
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relatent des régressions qu’ils ont effectuées sur des variables suivant 
chacune une marche aléatoire et ont pourtant obtenu un R? important 
même si ces deux processus n’ont apparemment aucun lien entre eux. 


Considérons maintenant tour à tour quatre cas d’espèce ayant 
trait à deux séries chronologiques y. et z:: 1) les séries y. et z: sont 
stationnaires ; 2) les deux séries sont intégrées de différents ordres; 
3) les deux séries sont non stationnaires mais intégrées du même 
ordre; les résidus emmagasinent un trend stochastique ; 4) les deux 
séries sont intégrées du même ordre et les résidus sont stationnaires. 


Examinons d’abord le premier cas. Quand les deux séries sont 
stationnaires, alors les MCO peuvent être utilisées. Pour ce qui con- 
cerne le second cas, soit celui où les séries ont des ordres d’intégration 
différents, la régression par les MCO n’a aucune valeur. Pour fixer les 
idées, analysons la régression suivante : 


Yr az te: 
où 7. obéit au processus AR(1) suivant : 

Zt = PZr 1 Et 
et y. suit la marche aléatoire suivante : 


Ye = Yi Ve 


Les résidus e. de cette régression peuvent être écrits sous la forme 
suivante : 


LE t . 
— 1 
Êk= D vi: a) p Et 
i=0 i=0 


Dans cette équation, la première somme ne converge pas alors que la 
deuxième somme converge en supposant que | ro) | <1. On en conclut 
que e. n’est pas stationnaire : cette régression n’a donc aucune valeur. 


Passons maintenant au troisième cas, soit celui de deux séries 
non stationnaires mais intégrées du même ordre et où les résidus 
incorporent un trend stochastique. Dans un pareil cas, l’application 
des MCO à l'équation reliant y. à z. se traduira par une régression 
fallacieuse. Il est alors recommandé de différencier les deux séries : 


Ay,=a,Az, +Ae, 
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Ye — Ven +V: 
Ze — Zi +6: 


RTS | FÉ 


Finalement, dans le quatrième cas, les séries sont intégrées du 
même ordre et les résidus sont censés stationnaires. Dans ce cas, on 
dit que les deux séries sont cointégrées. L’estimateur des MCO pour 
la régression de y sur z est alors convergent??. Les séries cointégrées 
sont reliées entre elles par un équilibre de long terme. Par exemple, 
on a constaté que les taux d’intérêt sont des séries cointégrées en vertu 
des théories de la structure à terme des taux d’intérêt. Incidemment 
Wilmott* voit la cointégration comme une mesure de corrélation. 


15. TESTS DE RACINE UNITAIRE 


Dans cette section, nous portons notre attention sur deux tests prin- 
cipaux : le test de Dickey-Fuller et le test de Dickey-Fuller augmenté. 
Il existe également le test de Perron, dont nous ferons une brève 
mention. 


Pour tester la présence d’une racine unitaire, on utilise le test dû 
à Dickey-Fuller et publié en 1979. Ces auteurs se basent sur les régres- 
sions suivantes, qui sont des transformations du modèle autorégressif 


AR(1): 


AY: = Wen + €e 
AY+ = 40 Ye te 
AY: = ap +ait+Ÿ.: +e. 


Les différences entre ces trois équations sont évidentes. Par 
rapport à la première, un drift a été ajouté dans la seconde et la 
troisième comporte en plus un trend. Le test de racine unitaire est le 


22. Notons que l’estimateur est même super-convergent. 
23. Wilmott (1998), op. cit. 
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suivant. Sous H0, y = 0, ce qui correspond à une racine unitaire 
puisque Y =p—1. On effectue le test de racine unitaire en effectuant 
le test t standard: 


Selon cette dernière équation, sous HO, la statistique t n’a pas sa 
distibution habituelle. Elle obéit plutôt à une distribution calculée par 
Dickey-Fuller, nommée r. Les valeurs critiques respectives de t pour 
les trois équations pour des seuils de 1% à 10 % sont reportées au 
tableau 9.2. 


TABLEAU 9.2 Valeurs critiques asymptotiques pour les tests 
de racine unitaire 


Statistique du test 1% 2,5% 5% 10% 
Tse _2,56 Dr: _1,94 _1,62 
Te —3,43 —3,12 —2,86 —2,57 
Tet —3,96 3,66 -3,41 -3,13 


Source: Davidson, R. et J.G. McKinnon (1993), Estimation and Inference in 
Econometrics, Oxford University Press, New York. 


À titre d'exemple, si l’on applique le test Dickey-Fuller à la 
troisième régression, on rejettera l’hypothèse nulle pour un seuil 
a=5% si la statistique t de y est supérieure au T qui est égal en 
valeur absolue à 3,41. Cela indiquerait l’absence d’une racine unitaire 
au niveau @=5 %. 


Envisageons maintenant le test Dickey-Fuller élargi publié en 
1981, abrégé par ADF. Pour construire ce test, on effectue la régres- 
sion suivante : 


P 
AY. — EP + ait + a3t? SE n at” + W: + D BAY in + €: 
i=2 
La version élargie du test de Dickey-Fuller comporte donc des retards 
additionnels sur la variable Ay. Cet ajout vise à prendre en compte la 


24, ADF est l’abréviation de Augmented Dickey-Fuller. 
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présence éventuelle d’autocorrélation dans les résidus. Dans la pratique, 
on se limite au cas pour lequel n=1 et p=2. Il en résulte: 


Ay.=ao+ait+wsi+B;Ayiite, 
Les hypothèses testées sont: 
H0: y=0 
contre : 
1: 720 


où y=p-1. On rejette HO si la valeur absolue de t est supérieure à 
T«. Sous H0, la distribution asymptotique du test t associée à cette 
régression est la même que celle du test DF présentée précédemment. 
On peut aussi recourir à cette dernière régression pour tester si la 
série financière est TS ou DS de la façon suivante. On calcule les 
statistiques t associées aux paramètres y et a1. Si ces coefficients sont 
statistiquement différents de zéro, on est présence d’une série TS. Par 
ailleurs, si le coefficient y n’est pas significativement différent de 0, 
alors la série est DS, ce qui implique que p est alors égal à 1. Ce test 
est cependant plus ou moins rigoureux. 


Phillips et Perron (1988) ont proposé une généralisation des tests 
Dickey-Fuller qui impose moins de restrictions sur la distribution des 
termes d’erreur. Plus précisément, Dickey et Fuller supposaient que 
les résidus de leurs régressions étaient indépendants et de distribution 
homogène. Le test Phillips-Perron suppose seulement que les résidus 
sont faiblement dépendants et qu’ils peuvent être distribués de façon 
hétérogène. La régression qu’ils proposent est la suivante : 


t-T 


Ye =U+$ +Oy:1+e: 


où t=1,...,T. Sous HO, les données sont générées par: 


Ye — Ven +e: 


soit une marche aléatoire où E(e;) = 0. Perron et Phillips ont modifié 
les statistiques t de Dickey-Fuller pour prendre en compte l’hétérogé- 
néité des termes d’erreur. Il faut calculer les statistiques t,, t, et tp qui 
sont les tests t usuels pour l’hypothèse nulle : = 0, &« = 1 et 6 = 0. Par 
la suite, il suffit simplement de calculer les statistiques de Perron- 
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Phillips associées à ces trois tests. Les valeurs critiques de ces statis- 
tiques de Perron-Phillips sont identiques à celles qui apparaissent 
dans la table de Dickey-Fuller. Pour plus de détails à ce sujet, on 
consultera Enders (1995). Par la suite, Perron (1989) a élargi le test 
de racine unitaire au cas des changements structurels. Il considère 
l’hypothèse d’un seul sursaut dans le niveau du processus de racine 
unitaire contre l’alternative d’un changement au niveau du terme 
constant d’un processus TS. 


16. COINTÉGRATION 


La cointégration se rattache à la corrélation de deux séries dans le 
temps. On dit que deux séries y. et x. sont cointégrées si les résidus de 
la régression de y. sur x. sont stationnaires : 


Ye = G+Px,+e, 


Par exemple, si y. et x: sont intégrées d’ordre 1 et si e; est intégrée 
d'ordre 0, on a cointégration des deux séries. Dans ce cas, même si les 
deux séries sont non stationnaires, la régression par les MCO ne sera 
pas fallacieuse en autant que les dites séries soient cointégrés. L’une 
des implications est la suivante. Si les séries ne sont pas stationnaires, 
il n’est pas nécessairement obligatoire de les stationnariser pour autant 
qu’elles soient cointégrés. Par ailleurs, lorsque les séries sont 
cointégrées, l’estimateur des MCO est super-convergent: B est alors 
un excellent estimateur de B puisque lorsque les deux séries sont 
cointégrées, l’estimateur des MCO converge plus rapidement qu’autre- 
ment. La régression par les MCO décrit alors un équilibre à long 
terme, soit un équilibre stationnaire entre y. et xt. 


Pour tester si y. et x. sont cointégrées, il suffit de recourir à un 
test de racine unitaire sur les résidus, tel le test Dickey-Fuller. Les 
étapes du test tel que développé par Engle et Granger (1987) sont 
les suivantes : 1) on régresse y. sur x: 


Yt rx, +6, 


25. Enders, W. (1995), Applied Econometric Time-Series, John Wiley and Sons, New 
York. 


26. Engle, R.F. et C.WJ. Granger (1987), « Cointegration and Error Correction : 
Representation, Estimation and Testing >», Econometrica, 55, p. 251-276. 
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on en déduit ê;; 2) on calcule: 
A8, =e, —-e,; 
et on régresse ensuite Ax, sur xe1 
Aë, =(p-1)è,;+v, 
AË, =P*Ës 1 + Ve 
3) on effectue le test bilatéral suivant: 
H0: p=1oup*=0 
H1: p#loup*#0 


Ce test est le test t habituel : 


pre 


= —————— 
\ V(p*) 


4) on rejette HO si: €] > Le . Il est à noter que les valeurs critiques 
doivent être recalculées puisque ê; est le résultat d’une régression dans 
laquelle le vecteur de cointégration est lui-même estimé. Pour plus de 
détails, voir Mills (1999ÿ7. 


Application 


Pour illustrer les tests de racines unitaires et de cointégrations, consi- 
dérons l’exemple suivant. Cet exemple se fonde sur la relation entre le 
prix à terme et le prix au comptant d’un instrument financier. Nous 
abordons le cas de l'acceptation bancaire?$ canadienne à trois mois et 
du contrat à terme écrit sur cet instrument. Le contrat à terme sur 
l'acceptation bancaire se transige à la Bourse de Montréal et est 
désigné par l’acronyme BAX. Théoriquement, il existe une relation 
stricte entre le prix au comptant d’un instrument financier et son prix 
à terme. Mais dans la pratique, les prix peuvent dévier de cette rela- 
tion. Il reste que ces deux catégories de prix devraient être des séries 


27. Mills, T.C. (1999), The Econometric Modelling of Financial Time Series, 2° édition, 
Cambridge University Press, p. 269. 


28. Une acceptation bancaire est un titre de financement à court terme émis par une 
entreprise et garanti par une banque. 
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cointégrées. Cette cointégration est d’ailleurs à la base de la couver- 
ture d’un portefeuille de titres à court terme par les BAX. N'était la 
cointégration, la couverture serait impensable. Pour tester la 
cointégration entre ces deux séries, nous appliquons une version du 
test de Engle et Granger qui, en même temps, illustre bien le test de 
racine unitaire, ici la version Dickey-Fuller élargie. 


Dans un premier temps, nous régressons le prix au comptant (S) 
sur le prix à terme (F). Les données sont journalières et s’étirent du 
début à la fin de 1997. Les résultats de cette régression apparaissent au 
tableau 9.3. 


T'ABLEAU 9.3 


Dependent Variable : SERO1 

Method: Least Squares 

Date : 10/03/00 Time : 13:08 

Sample : (ajusted) : 1 250 

Included observations : 250 after adjusting endpoints 


Variable Coefficient Std. Error  t-Statistic Prob. 
C 76.30243 0.116647 654.1325 0.0000 
F 0.236687 0.001209 195.7090 0.0000 
R-squared 0.993567 Mean dependent var 99.13103 


Ajusted R-squared 0.993541 S.D. dependent var 0.100913 
S.E. of regression 0.008110  Akaike info criterion —6.783403 


Sum squared resid 0.016313 Schwarz criterion 6.755231 
Log likelihood 849.9254 F-statistic 88302.01 
Durbin-Watson stat 1.828987 Prob(F-statistic) 0.000000 


Nous retenons les résidus de cette régression et nous effectuons 
la régression auxiliaire suivante qui est en fait le test ADF: 


AË, =c+p";8,s+p;Aë,, +b“t+u, 


Les résultats apparaissent au tableau 9.4. 
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TABLEAU 9.4  Augmented Dickey-Fuller Unit Root Test 


on RES 
ADF Test Statistic —8.668564 1% Critical Value* —3.9983 
5% Critical Value —3.4292 
10% Critical Value —-3.1378 


* MacKinnon critical values for rejection of hypothesis of a unit root. 


Augmented Dickey-Fuller Test Equation 

Dependent Variable : D(RES) 

Method: Least Squares 

Date : 10/03/00 Time : 13:17 

Sample (ajusted) : 3 250 

Included observations : 248 after adjusting endpoints 


Variable Coefficient Std. Error  t-Statistic Prob. 
RES(-1) —0.740128 0.085381  -8.668564 0.0000 
D(RES{-1)) —0.191772 0.063091  -3.039631 0.0026 
EC 0.000404 0.001021 0.395437 0.6929 
@TREND(1) —2.98E-06 7.07E-06  —-0.422159 0.6733 
R-squared 0.479433 Mean dependent var 1.45E-05 


Ajusted R-squared 0.473033 S.D. dependent var 0.010974 
S.E. of regression 0.007966  Akaike info criterion —6.811198 


Sum squared resid 0.015485  Schwarz criterion —6.754530 
Log likelihood 848.5886 F-statistic 74.90664 
Durbin-Watson stat 2.000846 Prob(F-statistic) 0.000000 


La statistique t associée à &,_, est égale à -8.66. Cette statistique 
doit être comparée aux valeurs critiques asymptotiques pour les tests 
de cointégration. En effet, ces statistiques diffèrent des valeurs critiques 
habituelles des tests de racines unitaires. Un aperçu de ces valeurs 
critiques est présenté au tableau 9.5. 


T'ABLEAU 9.5 


Statistique 
du test 1% 2,5% 5% 10% 97,5 % 
m=2 
Te —3,90 —3,59 —3,34 —3,04 —0,30 
Tet -4,32 -4,03 -3,78 —3,50 —1,03 


Source: Davidson, R. et J.G. MacKinnon (1993), op. cit. 
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Comme on peut le constater, la statistique t associée à ê,, 
dépasse largement la valeur de au seuil de 5 %, ce qui nous conforte 
dans notre attente d’une forte cointégration entre le prix au comptant 
et Le prix à terme des acceptations bancaires. 


Revenons à la régression de S sur F. On constate que le coeffi- 
cient de régression associé à F est approximativement égal à 0,24. Or, 
cette information est très importante pour une opération de couver- 
ture, car elle représente la valeur absolue du ratio de couverture (h): 


A 
ps 
AF 


Ce ratio nous indique que pour chaque contrat détenu au comptant, 
il faut vendre 0,24 contrat à terme pour couvrir sa position. En effet, 
la relation qui relie le nombre de contrats à terme (NF) au nombre de 
contrats au comptant (NS) est la suivante : 


NF = NS» 


AF 


29. Pour plus de détails, voir : Racicot, F.-É. et R. Théoret (2000), op. cit. 
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CHAPITRE 


10 


L'HÉTÉROSCÉDASTICITÉ 
CONDITIONNELLE (ARCH) 


Ce chapitre se penche sur une propriété de certaines séries écono- 
miques ou financières, à savoir que leur volatilité ou leur variance se 
modifie dans le temps. Pour traiter ce problème en économétrie finan- 
cière furent introduits les modèles d’hétéroscédasticité conditionnelle. 
Ces modèles sont relativement récents. Le principal instigateur est 
Engle (1982). Dans un article intitulé « Autoregressive Conditional 
Heteroscedasticity with Estimate of the Variance of United Kingdom 
Inflations », paru dans Econometrica en 1982, Engle a proposé le modèle 
ARCH, soit l’acronyme de : AutoRegressive Conditional Heteroscedasticity. 
Bollerslev, dans un article paru dans 1986 dans Le Yournal of Econometrics 
et intitulé « Generalized Autoregressive Conditional Heteroscedas- 
ticity»>, a présenté une version généralisée du modèle d’Engle : le 
GARCH. Toute une panoplie de versions plus sophistiquées de ce 
modèle devait s’ensuivre. L'ensemble de ces modèles fait l’objet de ce 
chapitre. 


1. NOTIONS D'ESPÉRANCES CONDITIONNELLE 
ET NON CONDITIONNELLE ; NOTIONS DE VARIANCES 
CONDITIONNELLE ET NON CONDITIONNELLE 


Pour introduire ces notions, nous considérons un modèle du taux 
d’intérêt à court terme. Pour ce faire, on recourt à un processus 
autorégressif AR(1) stationnaire : 


Ye — 40 +aiYei +e: 
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où e,- WN(0,6°). Dans cette équation, y. est la valeur du taux 
d’intérêt au temps t. Nous voulons prévoir ÿ:,1 en utilisant l’espérance 
non conditionnelle. On procède comme suit: 


Venu 40 +a1Vr +Etn 
E(y:x )= ao + a E(y: je ECS ) 


L’espérance non conditionnelle sert à calculer des prévisions à long 
terme d’une variable, soit sa moyenne à long terme. Sachant par 
ailleurs que la moyenne d’une série stationnaire est constante, on peut 
écrire: 


E(y:4)= 20 +a1E(y:) 
puisque : 
be )=E(s ;)=0 Vt 
Il en résulte que: 


a0 


E(yu) = 
1-a, 


C’est là l’espérance non conditionnelle de v,1. 


Nous nous intéressons maintenant à la prévision à court terme 
de y::1. L’espérance conditionnelle nous donne alors une prévision 
supérieure à l’espérance non conditionnelle. L’espérance condition- 
nelle prend en effet compte de toute l’information disponible jusqu’au 
temps t. Elle suppose que toutes les variables sont connues et fixées 
jusqu’à cette période. On peut donc écrire 


E; (yru) — 40 +a1E, (Yt)FE. (eu) = 49 +aiVt +0 


y. est en effet connu au temps t et n’est donc pas aléatoire. Par ailleurs 
et1 est inconnu à la période t. Son espérance conditionnelle est donc 
nulle. 


Pour introduire les notions de variances conditionnelle et non 
conditionnelle, nous au recourons au processus autorégressif suivant : 


Ye — 1: FE: 
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N 2 | ss 
Où €, - N(0, (o] Ï Nous supposons également que y est une série 
stationnaire, c’est-à-dire que À est inférieur à 1. En vertu des calculs 
antérieurs nous pouvons écrire la variance conditionnelle comme suit : 


V.(Y:)=E., [y _E,(y)] 5" 


Pour calculer la variance non conditionnelle, nous recourons à l’équa- 
tion qui relie y. au décalage de l’innovation. Pour établir cette rela- 
tion, nous exprimons l’équation de y. comme suit: 


y.(-AL)=e, 


où L désigne l’opérateur de retard. En multipliant les deux côtés de 
cette expression par (1—XL)-!, on obtient : 


y. =(1-AL) le, 


et en utilisant une propriété bien connue de l’opérateur de retard, on a: 


Ve=Er HAE y +NE + HAE n — 


La variance non conditionnelle est donc égale à: 


Viy.)= 0" (144 +07 +.) 


L'expression entre parenthèses est une progression géométrique de 
raison À. La variance non conditionnelle de y, se simplifie donc 
comme suit : 


6°? 


=) 


La variance non conditionnelle est donc différente de la variance 
conditionnelle. 


v(Y:)= 


2. L'HÉTÉROSCÉDASTICITÉ CONDITIONNELLE ET LES FAITS 


Traditionnellement, l’hétéroscédasticité était associée aux données en 
coupe instantanée (cross sectional data), les séries temporelles étant 
étudiées dans un contexte d’homoscédasticité. En analysant les données 
macroéconomiques, Engle (1982) et Cragg (1982) ont trouvé que la 
variance, dans les séries temporelles, était moins stable qu’il n’était 
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généralement supposé. Pour pallier à ce problème dans son modèle 
d'inflation, Engle à réalisé que les grandes et petites erreurs de prévi- 
sion étaient groupées (clustered), ce qui suggérait une forme d’hétéro- 
scédasticité dans laquelle la variance de l’erreur de prévision dépend 
de l’importance de l’erreur précédente. En examinant certaines séries 
financières comme les taux d’intérêt et les cours boursiers, on remarque 
le même phénomène. On peut donc dire que la variance de ces séries 
est hétéroscédastique dans le temps. 


Une autre caractéristique des séries financières est leur leptokur- 
ticité, ce qui les éloigne d’une distribution normale. Gouriéroux 
(1992)! rapporte les coefficients de kurtosis de certains titres cotés en 
bourse ainsi que ceux de certains métaux. Tous comportent un coef- 
ficient plus élevé que celui qui est associé à la loi normale. Les titres 
aurifères ont même un coefficient de 11,4, donc très éloigné de celui 
qui est associé à la loi normale, qui se situe à trois. Selon Gouriéroux, 
les modèles ARCH sont de nature à modéliser la leptokurticité pré- 
sente dans les données financières puisque si l’on calcule le coefficient 
de kurtosis associé au modèle ARCH, on trouvera que celui-ci génère 
des coefficients supérieurs à 3. 


3. LE MODÈLE ARCH 


On a le modèle de régression suivant : 
LeT 
y. =B xte, 
où x. n’est pas aléatoire et où e. suit le processus suivant: 
ï te 
Et LA [ao + et | 


où &, >0 et 0 <a, <1, ces hypothèses assurant une variance condi- 
tionnelle finie et non négative. On postule ici que w-N(0, 1) et 
EQuet1) =0. 


Calculons l’espérance conditionnelle de l’innovation : 


2 1/2 
Ele, | €t-1 > Êt-2 ,.….) = E U+ (o + œ;e: ) le, > Êt-2 ” 


1. Gouriéroux, C. (1992), Modèles ARCH et applications financières, Economica, Paris. 


© 2001 — Presses de l’Université du Québec 


Édifice Le Delta I, 2875, boul. Laurier, bureau 450, Québec, Québec G1V 2M2 + Tél. : (418) 657-4399 — WWW.puq.ca 
Tiré : Traité d'économétrie financière, François-Éric Racicot et Raymond Théoret, ISBN 2-7605-1123-5 + D1123N 


Tous droits de reproduction, de traduction ou d’adaptation réservés 


L’'hétéroscédasticité conditionnelle (ARCH) 277 


Désignons par E+1 l'espérance conditionnelle à information dispo- 
nible jusqu’en t- 1: on suppose alors que cette information est une 
donnée pour les fins de l’analyse. On peut donc écrire: 


E LE ) =E.lu.(a +oei: )?] 
=E;; (u, JE. (CA + ee #7) 


= 0 


t— 


Passons maintenant au calcul l'espérance non conditionnelle de l’inno- 
vation. 


E(e.) = Elu, (@o + QE? y | 
et puisque u. et e-, sont indépendants : 
E(e,) = E(u, JE((o +oœe2,)/2)=0 


Notons encore une fois que E(.), soit l'espérance non conditionnelle, 
sert à calculer une prévision à long terme associée à la moyenne. Par 
contre, E+_1(.), soit l'espérance conditionnelle, sert à calculer une pré- 
vision à court terme en utilisant l’information disponible jusqu’au 
temps t—1. 


La variance conditionnelle de l'innovation, identifiée par h. est 
égale à: 
h =0o?=V = E(e? 
t t CtlEt-1Èt-25e. CtlEt-1Ct-25-. 
=E las +oe-.]|=E 2)E +aeZ. |=1x{œ +o,e° 
= Eu (og +oes = É{ue eo +aesr]— do Fer 
L 2 
“ (a +ae?:) 
Il est certes évident que: 
Vans) " Vase 
2 2 
= dj +es 1 — GC: 


T'el est le modèle ARCH(1) proposé par Engle en 1982. Il est à noter 
que l’on suppose que ao > 0 et 0 < æ1 < 1, ceci pour obtenir une variance 
conditionnelle finie, c’est-à-dire s’assurer de la stationnarité du pro- 
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cessus et de la non-négativité de la variance conditionnelle. On pour- 
rait par ailleurs démontrer la supériorité des prévisions effectuées à 
partir de l’espérance conditionnelle, cela parce que l’erreur de prévi- 
sion est alors inférieure à celle qui est associée à l’espérance non 
conditionnelle. En effet, comme nous l’avons démontré dans la sec- 
tion précédente, l’erreur de prévision associée à l’espérance condi- 
tionnelle est de o? et celle reliée à l'espérance non conditionnelle est 


2 


de 


s Comme 0<X<1, la variance conditionnelle est donc infé- 
1-X 


rieure à la variance non conditionnelle. 


4. ESTIMATION DU MODÈLE ARCH 


T'el qu’il vient d’être présenté, le modèle ARCH respecte les hypo- 
thèses du modèle classique des MCO. Ses paramètres peuvent donc 
être estimés par la méthode des MCO puisque la variance non condi- 
tionnelle n’est pas hétéroscédastique : l’estimateur des MCO est alors 
efficace. On estimerait alors les paramètres de la variance condition- 
nelle par une régression auxiliaire ou artificielle. Par contre, il existe 
un estimateur non linéaire qui prend en compte l’hétéroscédasticité 
conditionnelle et qui est plus efficace asymptotiquement que les MCO. 
Cette méthode, telle que préconisée par Engle (1982), est le maxi- 
mum de vraisemblance. Ecrivons cette fonction de vraisemblance en 
posant que et - N(0, 02) = N(0, ao +aæ1er 1°). La densité conjointe des 
innovations est : 


œ 
f(ee.….er/Bao,@)= [ [f(e./B.co,ct:) 


t=l 


—-E 
Hoi 1 _ A (e.) 


2 
2ñ6; 2 St 


Pour passer à la densité conjointe des observations sur y, on utilise la 
transformation jacobienne suivante : 


de 
f =f £ 
(y.) (e:) d 


Yt 
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de 
On pourra vérifier facilement que |——|=1. Il s’ensuit: 
dy 
1 1 p' : 
Ve X 
f(y./B,@0,a ) = 3 EXP|— - - 
270: 2 (OR 


Ceci implique : 


T 
L(B,@0,0: li ,Y2Yr) = II. 1,2 où ) 


t=l 


On recherche donc les valeurs des paramètres qui maximisent la pro- 
babilité de générer l’échantillon observé. Elaborons la fonction de 
vraisemblance : 


T 1 115 —B'x | 
L , ; ; ésss — : 
(B 9 di |y Y2 yr) [] 210! 2 O+ 
T : L AI 
= (21) TRY (0?) 1/2 _ es Yt ss 
t=1 Zi Sk 


Exprimons cette expression sous forme logarithmique : 


ie Yh RG B x.) 
2 t=l 2 t=l h, 


où h,=6; =@p+üe;. L'algorithme d’optimisation utilisé pour 
solutionner cette équation à déjà été présenté au chapitre 4. Enders 
(1995) montre comment on peut trouver les valeurs des paramètres 
qui maximisent la fonction de vraisemblance en utilisant le logiciel 
RATS. Ce programme apparaît au tableau 10.1. 
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T'ABLEAU 10.1 


NONLIN B @o œ 

FRML € =y-fx 

FRML h = 0 + œj* Et? 

FRML LIKELIHOOD = - 0.5*[log(h) + (£/h))] 
COMPUTE f = initial guess, ao = initial guess, «1 = initial guess 
MAXIMISE(RECURSIVE) LIKELIHOOD 2 end 

Source: Enders (1995). 


Dans le langage EViews, la fonction de vraisemblance d’un modèle de 
régression linéaire simple se formule comme au tableau 10.2. 


T'ABLEAU 10.2 


smpl 17 

logl fctvrai 

fctvrai.append @logl logl1 

fctvrai.append res=y-c(1)-c(2)*x 

fctvrai.append logli=log(@dnorm(res/@sqrt(e(3)))) -log(c(3))/2 
fctvrai.ml(b, d) 


Pour élargir ce programme au modèle ARCH, le lecteur n’aura qu’à 
ajouter une ligne qui définit le modèle ARCH des résidus de la 
régression et à introduire cette variable dans la fonction de vraisem- 
blance /og/1. 


5, GÉNÉRALISATION DU MODÈLE ARCH 


5.1. Le modèle ARCH(q) 


Le modèle ARCH(1) ne comporte qu’un seul retard sur l’innovation 
élevée au carré, c’est-à-dire : 
2 

6, =h 


: 2 
e = Ao +es 
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Par contre, dans le modèle ARCH(q), q retards sont utilisés : 


De cette dernière équation, il résulte que l’on peut écrire l’innovation 
comme suit : 


Pour avoir une variance conditionnelle finie et positive, on impose 
que œp>0 et que les racines caractéristiques du a(L) se situent à 
l'extérieur du cercle unitaire. 


Bollerslev (1986)? généralise le modèle de Engle (1982) en per- 
mettant à la variance conditionnelle de suivre un processus ARMA(p, q). 
Le modèle général GARCH(p, q) s'écrit comme suit : 


q P 
h=aç+Y}oet;+Y y;h,;= 0 +a(L)ei +y(L)h, 


i=1 j=1 


Il est à noter que le modèle GARCHK(1, 1) approxime de très près un 
modèle ARCH(q) pour un indice q assez élevé. Ce modèle s’écrit 
comme suit : 


h, = 9 +oe, + Yihe 


La variance conditionnelle de l’innovation se calcule comme suit: 
LL 2 
Ve, le ‘ie _ =h,=0,+oe;;+Yih.: 


Pour s’assurer de la stationnarité du processus et du caractère fini de 
la variance conditionnelle, on impose aux trois paramètres d’être po- 


sitifs ainsi que la relation suivante: &1+"y1 <1. Si «1 +y1=1, on a le 
modèle IGARCH(1, 1), soit le integrated GARCH. 


Soulignons finalement qu’un modèle GARCH peut représenter 
de façon parcimonieuse un processus ARCH(q), par exemple, un 


2. Bollerslev, T. (1986), « Generalized Autoregressive Conditional Heteroscedas- 
üity», Journal of Econometrics, vol. 31, p. 307-327. 
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processus GARCH(1, 1) a pu se révéler une approximation parcimo- 
nieuse d’un processus ARCH(8). Il en résulte moins de restrictions 
sur les paramètres estimés. 


5.2. Le modèle ARCH-M 


Ce modèle, dû à Engle, Lilien et Robins (1987), s'écrit comme suit: 
y. =X.B+ôh,+e, 
Dans cette équation, e; obéit au modèle GARCH suivant: 


1/2 
è 2 L 1/2 
êt = %o +Ÿ œe, + yih., Le =h; U+ 
i=1 j=1 


On voit que, dans ce modèle, la moyenne de y: dépend aussi de la 
variance conditionnelle. Cette classe de modèles se prête bien à l’ana- 
lyse des actifs financiers. Contrairement au CAPM classique, la prime 
de risque n’est pas ici considérée comme fixe mais devient plutôt une 
fonction croissante de la variance conditionnelle des rendements de 
l'actif financier. Engle, Lilien et Robins se sont servis de ce modèle 
pour modéliser l’écart de rendement entre un actif à long terme et un 
actif à court terme. Leur équation est la suivante: 


y.=u,+e,=fB+ôh,+e, 


yt = écart de rendement entre un actif à long terme et celui d’un 
bon du Trésor ; 


u. = prime de risque incorporée dans l’actif à long terme; 


et = terme d’erreur. 


3. Engle, R. D. Lilien et R. Robins (1987), « Estimating Time Varying Risk Premia 
in the Term Structure : The ARCH-M Model», Econometrica, 55, p. 391-407. 
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5.3. Le modèle EGARCH 


Le modèle EGARCH (exponential GARCH), dû à Nelson (1991), a 
été développé pour modéliser non seulement l’excès de leptokurticité 
mais aussi les effets asymétriques qu’ont les rendements sur la volati- 
lité. Dans la littérature, cet effet est appelé : leverage effect. Il s’agit 
d’une corrélation négative entre les rendements présents et la volati- 
lité future. En effet, une baisse du rendement d’une action est associée 
à une diminution de la valeur marchande de l’avoir des actionnaires de 
l’entreprise qui l’a émise. Il en résulte une hausse du levier de cette 
entreprise, soit le ratio de sa dette à l’équité. L'entreprise est alors 
perçue plus risquée sur le marché, ce qui augmente la volatilité future 
du rendement de cette action. La baisse du rendement de cette action 
exerce donc un effet de levier sur sa volatilité future*. Le modèle 
EGARCH(p, q) se formule comme suit: 


In(h,)=In(6;)=a + XL aifou,. +0{lu,;-Elu, 
i=1 


] 


P 
+ y; In(oi;) 


j=1 


où u- NID(0, 1) et e:= uch4l/? = u:04. On suppose ici que les condi- 
tions concernant la stationnarité du processus sont respectées. Expli- 
quons sommairement le deuxième terme du logarithme de la variance 
conditionnelle. Rappelons auparavant que dans le modèle GARCH 
classique, la volatilité dépend de l’importance des chocs sur l’innova- 
tion e, et non de leur signe. Cela néglige le Zeverage effect présent dans 
les séries financières. Le modèle EGARCH le prend en compte par le 
biais du deuxième terme de son équation. Contrairement au modèle 
GARCH, le modèle EGARCH n’impose aucune contrainte de non- 
négativité sur les paramètres a; et y; de façon à s’assurer que la variance 
conditionnelle soit positive. Toutefois, comme cela a été spécifié aupa- 
ravant, le processus est supposé stationnaire. 


4. Nelson, D.B. (1991), « Conditional Heteroskedasticity in Asset Returns : À New 
Approach», Econometrica, 59, p. 347-370. 


5. Pour plus de détails sur ce sujet, on consultera: Bollerslev, T., R.Y. Chou et 
K.F. Kroner (1992), «ARCH Modelling in Finance : A Review of the Theory 
and Empirical Evidence », Yournal of Econometrics, 52, p. 55-59. 
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Voici comment le modèle EGARCH intègre le /everage effect. Si 
@,0 < 0, alors la variance conditionnelle (04?) tend à augmenter (dimi- 
nuer) si e-; est négatif (positif), ceci en conformité avec les faits 
empiriques qui font apparaître le /everage effect au niveau du compor- 
tement des rendements des actifs financiers. 


5.4. Le modèle TARCH 


Le modèle TARCH (threshold ARCH), dû à Zakoian (1994)6 s'écrit 
comme suit : 
Yt = B'x. +e: 


La variance conditionnelle de l’innovation s'écrit comme suit à l’inté- 
rieur de modèle : 


2 2 2 2 
6: =w+0e:, + 1d; 1 +Bo;; 


où d,=1sie, <0 (mauvaise nouvelle) et 0 autrement. Ce modèle 
veut intégrer l’observation suivante sur les séries temporelles des ren- 
dements financiers. En effet, on a remarqué que les mauvaises nouvelles 
affectent davantage la volatilité que les bonnes. Si y est significati- 
vement positif, il y aura alors évidence de la présence d’un tel phéno- 
mène. 


Les modèles GARCH ont trouvé de multiples applications en 
finance moderne. En plus de celle reliée au CAPM que nous relate- 
rons dans la section « Applications », d’autres chercheurs les ont trans- 
posés à la théorie des options, là où la volatilité joue un rôle primordial”. 


5.5. Prévision à partir du modèle GARCH 


On pourrait montrer que le modèle GARCH(1, 1) revient à prévoir yt 
à partir de la moyenne pondérée, à poids géométriquement décrois- 


6. Zakoian, J.M. (1994), « Threshold Heteroskedastic Models », Yournal of Economic 
Dynamics and Control, 18, p. 931-955. 


7. Voir à cet effet : Engle, R. et C. Moustafa (1992), « Implied ARCH models from 
Options Prices», Journal of Econometrics, 52, p. 289-311; Duan, J.C. (1995), 
« The GARCH Option Pricing Model >, Mathematical Finance, 5, p. 13-32. Pour 
une synthèse des articles dans le domaine des modèles GARCH, voir : Racicot, 
FE. (2000), Notes on Nonlinear Dynamics, op. cit. 
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sants, des retards sur l’innovation au carré. Cela revient presque alors 
à un modèle MA où la variable indépendante est l’innovation au carré. 
Pour le montrer, supposons le modèle GARCHK(T, 1) suivant: 


2. 2 2 
6, =wm+oe;,+Bo:, 
2 


Par substitution répétée de 6:_;, on obtient: 


6! =w+Bo+B/o+...+ue,+afBe,+aBe ; +. 


On voit que les poids appliqués par à e?; sont afi!. Les poids 


t-i 
diminuent donc au taux exponentiel f. 


Cette méthode est plus satisfaisante puisque notre objectif est ici 
d’effectuer le monitoring de la volatilité actuelle. Il est donc approprié 
de donner davantage de poids aux observations plus récentes pour 
calculer la volatilité. Tel n’est pas le cas pour la variance classique qui 
donne un poids de 1/(T — 1) à toutes les observations. 


Nous voulons maintenant prévoir la volatilité conditionnelle 
d’une série à partir d’un modèle GARCH(1, 1). Soit: 
2 2 
0; = do +Oe, , +Bo: ; 
Nous voulons prévoir dans un premier temps 6°,,. On a: 


E, (ou) = Go +E.(er)+BE. (ot) = a +6: (a +8) 


La prévision de la variance conditionnelle dans deux périodes peut 
s’écrire comme suit: 


E, (CHE ) = œo +0oE,. (oi ) +BE, (oi) Ti œ +(@ + PE (oi) 


2 


En substituant dans cette équation la valeur déjà trouvée pour 6;,,, 


On a: 


E,(o£,2)= @9(1+ 0 +B)+06€ (0 +8) 


On peut réécrire cette expression comme suit: 


(1+0, +B)(1-@, -B) ; 


É(as. )= 
? (1-0, -B) 
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Finalement, la prévision dans n périodes de la variance conditionnelle 
se calcule en remplaçant simplement l’exposant 2 dans l’expression 
précédente par l’exposant n : 


1- 

= (os +8) a +06 (o +8) 
l=û;= 

CT 
œo n| 2 œo 

= +(a +0) Lo 

ar +8) | lo -B 


Cette dernière équation peut être utilisée pour calculer des prévisions 
pour n’importe lequel horizon en fixant n à l’horizon désiré. Quand 
a, +B=1, l’espérance conditionnelle de la volatilité se simplifie pour 
devenir : 


E, (CR )= (OR +nœo 
Le modèle GARCH(1, 1) pour lequel &, +f = 1 comporte une racine 
unitaire de telle sorte que la volatilité présente affecte les prévisions de 
volatilité dans un futur indéfini. On est alors en présence du GARCH 
dit intégré, encore désigné par IGARCHK(1, 1). Pour des GARCH 
d'ordres supérieurs: GARCH(p, q), des prévisions sur de multiples 
périodes peuvent être effectuées de façon similaire. 


5.6. Test ARCH 


Pour tester la présence d’erreurs de type ARCH dans le modèle 
suivant : 
yt=xb+re, 


on peut effectuer le test LM proposé par Engle (1982). Les étapes du 
ce test sont les suivantes : 


1) On estime d’abord l’équation précédente par les MCO. 
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2) Les résidus estimés de la régression précédente sont alors 
élevés au carré: 


A2 a \2 
Er — (y. — x) 
3) On effectue la régression artificielle suivante : 


ÊË = Oo + OËE 1 + + LaË a Ur 


On se sert du R° de cette régression pour effectuer le test. En effet, la 


d 
statistique [Tr x R’) + %*(q). S'il ny a pas d’effet ARCH, le R? de la 


régression artificielle sera faible. La statistique (T X R?) se situera 
alors sous la valeur critique de la distribution x°. L'hypothèse HO, à 
l'effet de l’absence d’effet ARCH, se formule comme suit: 


HO:a =, =..=0, =0 


On rejettera HO si (T° X R?) > x?. Par exemple, on rejettera l’hypo- 
thèse de l’absence de l'effet ARCH(1) si TXR? > #?(1) = 3,84. 


Application 


Dans cette section, nous coulons le CAPM dans le creuset de la 
méthode d’estimation dite GARCH-M (GARCH-in-Mean}. Mais 
auparavant, forts des concepts que nous avons introduits depuis que 
nous avons examiné le CAPM, nous reconsidérons l’estimation de ce 
modèle par la méthode des MCO. 


Les hypothèses du CAPM sont au nombre de cinq: 1) les inves- 
tisseurs éprouvent de l’aversion pour le risque ; 2) leurs attentes sont 
homogènes au plan des rendements, ce qui signifie qu’ils prévoient la 
même matrice variance-covariance des rendements qui sont censés 
obéir à une distribution normale; 3) il existe un actif sans risque; 
4) linformation est gratuite; 5) il n’existe aucune imperfection de 
marché. Entre autres, il n’existe pas d’impôts ou de restrictions sur les 
ventes à découvert. 


8. Par association au modèle ARCH-M présenté auparavant dans ce chapitre. 
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Le modèle du CAPM comprend grosso modo deux équations. 
La première est la CML (Capital Market Line) et la seconde, la SML 
(Security Market Line). Considérons ces deux relations tour à tour. 


La CML 


La CML est une équation qui relie, lorsque l’équilibre sur les marchés 
financiers est atteint, les rendements des portefeuilles dits efficients°. 
L’équation de la CML s'écrit comme suit: 


E(R,,)-R - 


E(R,)=R;+ u 


m 


où E(R)) représente la valeur espérée du portefeuille p; R£, le taux 
sans risque ; E(R;), la valeur espérée du rendement du portefeuille du 
marché ; On, l’écart-type du rendement du portefeuille du marché et 
Oh l’écart-type du rendement du portefeuille p. La représentation 
graphique de la CML apparaît à la figure 10.1. 


E(R,,)-R:; 


[e] 


La pente de la CML est donc: . Elle représente 


m 


le prix du risque. C’est le rendement excédentairel? du portefeuille du 
marché par unité de risque, ici mesuré par l’écart-type du rendement 
du portefeuille du marché. Ce prix est commun à tous les porte- 
feuilles. Ce qui diffère d’un portefeuille à l’autre, c’est la quantité de 
risque qui y est emmagasinée, mesurée par Op 


On l’aura constaté à la lecture de la figure 10.1, les portefeuilles 
efficients sont de simples combinaisons linéaires de l’actif sans risque 
et du portefeuille du marché. Entre les points R£ et M, les investis- 
seurs détiennent pour partie l’actif sans risque et pour partie le porte- 


9. Un portefeuille est dit efficient s’il ne comporte pas de risque non systématique, 
dit encore risque résiduel ou non relié au risque présenté par le portefeuille du 
marché. 


10. C’est-à-dire le rendement au-delà du taux sans risque que les investisseurs exigent 
pour supporter le risque incorporé dans le portefeuille du marché. 
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feuille du marché. Au-delà de M, les investisseurs ont vendu à décou- 
vert l’actif sans risque, c’est-à-dire qu’ils ont emprunté de manière à 
investir davantage dans le portefeuille du marché. 


FIGURE 10-1 La CML 


E(R,) 


rf 


écart-type 


La CML aboutit donc au phénomène dit de la séparation de 
portefeuilles. En effet, en vertu de la CML, les investisseurs n’exer- 
cent leurs choix que sur deux catégories d’actifs ou fonds: le fonds 
constitué par l’actif sans risque et le fonds constitué par le portefeuille 
du marché. Tout investisseur détient donc les actifs risqués dans les 
mêmes proportions, qui sont égales aux pondérations que revêtent ces 
actifs dans le portefeuille du marché, et cela quel que soit le niveau de 
son degré d’aversion au risque. Ce qui diffère d’un individu à l’autre, 
ce sont les pondérations respectives qu’il accorde au fonds sans risque 
(actif sans risque) et au fonds risqué (portefeuille de marché). Ces 
pondérations sont déterminées par son degré d’aversion au risque. 
Plus un individu craint le risque, plus il donnera la part belle au fonds 
sans risque dans son portefeuille. 
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La SML 


La SML est une relation d’équilibre entre le rendement d’un titre (ou 
d’un portefeuille) et son bêta respectif. Pour la dériver, nous nous 
reportons à la figure 10.2. 


FIGURE 10.2 Dérivation de la SML 


E(R,) 


\ a = 0: équilibre 


Égaler pentes des deux courbes 


rf à ce point pour trouver la SML 


écart-type 


Supposons qu’un portefeuille soit composé de a% d’un actif 
risqué i et de (1-a)% du portefeuille du marché M. La frontière 
efficiente représentée par la courbe R'MR sur la figure 10.2 fournit 
ces combinaisons rendement-risque de l’actif i et du portefeuille du 
marché M. Or, l'équilibre des marchés financiers ne peut se situer 
qu’au point M. En effet, l’actif i a déjà sa pondération d’équilibre au 
sein du portefeuille du marché. La proportion a n’est donc qu’une 
demande excédentaire qui prend une valeur nulle lorsque l’équilibre 
sur les marchés financiers est atteint. 


Au point M, il y a égalité entre les pentes de la CML et de la 
frontière R'MR. Pour dériver la SML, soit la relation d’équilibre 
entre l’espérance du rendement d’un titre et son risque, nous devons 
donc égaler les pentes de la CML et de R'MR au point a = 0. Nous 


© 2001 — Presses de l’Université du Québec 


Édifice Le Delta I, 2875, boul. Laurier, bureau 450, Québec, Québec G1V 2M2 + Tél. : (418) 657-4399 — WWW.puq.ca 
Tiré : Traité d'économétrie financière, François-Éric Racicot et Raymond Théoret, ISBN 2-7605-1123-5 + D1123N 


Tous droits de reproduction, de traduction ou d’adaptation réservés 


L’hétéroscédasticité conditionnelle (ARCH) 291 


E(R,, }-R 
savons que la pente de la CML est de: E(Rn)=Re Par ailleurs, la 
Sn 
dE(R, }/ da | _—_—. 
pente de R'MR est de: =: 7. La SML doit donc satisfaire à 
d0(R, }/ da 


l'égalité suivante des pentes: 


E(R, )-Re _ 0E(R,)/0a 


(e] d6(R, }/ da 


D a=0 


Nous devons effectuer les deux dérivées qui apparaissent à droite de 
cette équation. Effectuons d’abord la dérivée qui apparaît au numéra- 
teur pour ensuite passer à la dérivée présente au dénominateur. Nous 
savons que : 


E(R,)=aE(R;)+(1-2)E(R,,) 
La dérivée du numérateur est donc de: 
dE(R 
CORTE TA 
a 


Passons maintenant à la dérivée présente au dénominateur du terme 
de droite de l’égalité des pentes. Nous savons que: 


> ss. 1/2 
o(R,)=[a ü:; +(1-a) (op +Za(1-a)o, | 


Nous devons dériver cette expression par rapport à a. Pour ce faire, 
nous recourons à la règle de la chaîne. Représentons par y le terme 
entre crochets dans cette équation. On a donc: 


“12 
s(R, TY 
La règle de la chaîne est donc, dans le cas qui nous intéresse : 


De Prnor 
da dy da 
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On peut écrire: 


da 2 da 
Et, en remplaçant y par sa valeur!! : 
06 1 1/2 
Pos = [ao +(1-2) 02, +Za(1-a)o, | x 
da 2 
[2a0 — 267 +2a02, +26:, —4a0. 


Cette dérivée doit être évaluée au point a = 0, soit à l’équilibre des 
marchés financiers : 


06 1 1/2 6. — 6? 
—#] = - (62) [25% +20 in [= 2" 
(e] 


m 


En substituant ces dérivées dans l’expression de l’égalité des pentes de 
la CML et de R'MR, on obtient finalement : 


On d0(R, }/ da ” 

E(Rn)-Rs _E(Ri)-E(Rn) 

ERn)=R: (os, -0?,)=E(R;)-E(R,.) 
[E(R,)-R]°M-E(R,)+R;=E(R;)-E(R,.) 


11. À remarquer que l’on recourt également à la règle de la chaîne pour dériver 


(1- a) 62, par rapport à a. On pose (1 —a) = y. La règle de la chaîne devient dans 


d0° 2 
ce cas: ST pot X-—1. En remplaçant y par sa valeur, on obtient 
a 


finalement : -2(1-a)6%, = 26? 


m 


+2a6°,. 
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A l'équilibre, l'espérance du rendement du titre i est égale à: 


[e] 


E(R;)=R;+[E(R,)-R | 


im 
2 


[e] 


m 


Définissons comme suit le bêta du titre i, soit son risque systématique : 


On obtient l’expression finale de la SML: 
E(R;)=R; +[E(R, )-R; | B; 


En situation d’équilibre sur les marchés financiers, il existe par consé- 
quent une relation linéaire entre le rendement espéré d’un titre et son 
risque systématique, représenté par son bêta!?. La représentation gra- 
phique de la SML apparaît à la figure 10.3. 


FIGURE 10.3 La SML 


E(Ri) 


Rf 


bêta de i 


12. Pour un titre particulier, l’écart-type de son rendement est une mesure inadé- 
quate de son risque puisque cette mesure comporte une part de risque non systé- 
matique. Or, les marchés financiers ne rémunèrent que le risque systématique. 
Le bêta d’un titre, qui est une mesure du risque systématique d’un titre, fait donc 
figure de mesure plus appropriée de son risque. 
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On constate que le modèle du CAPM à beaucoup emprunté à la 
théorie de Markowitz ayant trait à la diversification de portefeuille. La 
mesure pertinente du risque d’un titre est la covariance entre son ren- 
dement et celui du portefeuille du marché, tout comme chez Markowitz 
la mesure pertinente du risque est la covariance entre son rendement 
et ceux des autres titres qui constituent un portefeuille. En formulant 
le CAPM, Sharpe a simplifié la matrice variance-covariance des ren- 
dements des titres en reliant le rendement d’un titre à celui du porte- 
feuille du marché et non à celui de chacun des titres du portefeuille. 
Mais le message est le même. Le marché ne rémunérera que le risque 
non diversifiable, qui est mesuré par la covariance entre les rende- 
ments des titres. Le risque diversifiable est dilué dans un portefeuille 
bien diversifié et ne sera pas rémunéré sur des marchés financiers 
efficients. 


Relation entre le bêta et la variance du rendement d'un titre 


Pour établir la relation entre le bêta d’un titre et la variance de son 
rendement, nous recourons au 7odèle du marché, qui relie, au plan 
empirique, le rendement d’un titre à celui du portefeuille du marché: 


Rj =; +B;R +Ei 


où Rest le rendement du titre i au temps t; Rx, celui du portefeuille 
du marché et &;,, le terme d’erreur de la régression. Il est postulé que : 


it? 
E(R; Ex) = 0, c’est-à-dire que le rendement du portefeuille du mar- 
ché est indépendant de l’innovation!?. L’estimateur des MCO de B; 
correspond bien à la définition théorique du bêta d’un titre puisque la 


méthode des MCO donne au bêta la valeur suivante : 
Cov(R;,R;) 


ET var) 


13. Nous omettons l'indice t par la suite pour alléger la présentation. 
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C’est pourquoi on recourt généralement au modèle du marché pour 
calculer le bêta d’un titre". Calculons, à partir de cette équation, la 
variance du rendement du titre 1. L’input à ce calcul est l’espérance de 
Ri, qui est égale à: 


E(R; ) = 0; +B;ECR,) 


La variance de R; est donc égale à: 


EJR; -E(R)] =Efo +BR, +, a; -BE(R,)] 
=EÏB;(R, -E(R,)}+e; [ 
{pi ER )] +25[R -E(R)]e +et} 


= PER, -E(R,, )] +E(e?) 


puisque R, et £; sont supposés indépendants. Il suit que: 
2 _ 2.2 2 
G; =f;0:, + (Op 


Cette équation indique que le risque total d’un titre comprend deux 
composantes : le risque systématique, qui est relié à la variance du 
portefeuille du marché et au bêta du titre, et le risque non systéma- 
tique, qui est idiosyncratique au titre en question. Le risque systéma- 
tique est orthogonal au risque non systématique. La représentation 
graphique de cette orthogonalité apparaît à la figure 10.4 qui n’est 
rien d’autre qu’une application du célèbre théorème de Pythagore. 


14. Attention. Le modèle du marché ne repose sur aucune théorie particulière. Ce 
n'est pas à proprement parler la version empirique du CAPM, même si on 
recourt la plupart du temps au modèle du marché pour calculer le bêta. Il y a en 
effet deux autres modèles qui sont également utilisés dans les tests du CAPM. Le 
premier est à proprement parler la version empirique du CAPM. Nous le présen- 
tons dans la section qui suit. L’équation empirique de ce modèle est la suivante : 
R;, =R; + Bi[R —R; ] +e;. Le second est la ligne empirique du marché 
(empirical market line). Son équation est la suivante: R;, =Ÿ,, +Ÿ,,B; +e..Pour 
plus de détails à ce sujet, on consultera : Copeland, TE. et J.F. Weston (1988), 
Financial Theory and Corporate Policy, Addison-Wesley, New York, chap. 6, chap. 7 
et chap. 10. 
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FIGURE 10.4 


risque 
syst. 


risque total 


90 degrés: orthogonal 


risque non syst. 


Un portefeuille efficient ne comporte pas de risque résiduel. En 
vertu de la formule qui vient d’être établie, sa variance s’écrit comme 
suit : 


soit le simple ratio des écart-types respectifs des rendements du por- 
tefeuille p et du portefeuille du marché. Une autre façon d’arriver à ce 
résultat est d’écrire le bêta en termes du coefficient de corrélation 
entre le rendement du portefeuille p et celui du portefeuille du marché, 
SOIt Ppm : 


B, = Ppm 
[e) 
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Comme la corrélation entre le rendement d’un portefeuille efficient 
et celui du portefeuille du marché est de 1, on retrouve le résultat 
précédent : 


6, © 
B, =1x—=— 
6 


m m 


Le modèle du marché donne lieu à une expression relativement 
simple pour la covariance entre les rendements des titres i et j. Par 
définition, cette covariance est égale à: 


Gi =E{ [R; —E(R;)| LR. -E(R;)| } 


En remplaçant R;, R;, E(R;) et E(R)j) par leurs valeurs respectives dans 
le modèle du marché, on obtient: 


Si =E{ [BR —E(R, )}+e:] [B(R., -E(R, )}+e;] | 


LRJBBTRS —E(R, )] +Bi[R, -E(R, )}e; 
+BiÎR, -E(R,, )fe +Eie; 


Comme E(R,.8; ) =0, E(R, .E; ] =0et Es, E; ] = 0, on peut écrire : 


=BBEIR, -E(R,)] =BB;0, 


Par conséquent, pour calculer la covariance entre les rendements de 
deux titres, il suffit de connaître les bêtas respectifs des deux titres et 
la variance du rendement du portefeuille du marché. Si un portefeuille 
comprend N titres, on n’a besoin que de (N +1) données pour calcu- 
ler la matrice variance-covariance, en supposant qu’il n’existe pas de 
risque résiduel!” : les N bêtas des N titres et la variance du rendement 
du portefeuille du marché. Dans le cadre de la théorie de Markowitz, 
comme on ne relie pas le rendement d’un titre à celui du portefeuille 


15. En effet, comme on l’a vu précédemment, les variances des rendements des titres 
sont affectés par le risque résiduel. Mais on peut supposer que celui-ci est dilué 
dans un portefeuille bien diversifié. 
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2 


du marché, il faut calculer N variances et =" covariances!6 pour 


. : : . 2: 
en arriver à construire la matrice variance-covariance. Dans le cadre 


du modèle du marché, la matrice variance-covariance des rendements 
des titres s'écrit donc, pour un portefeuille composé de N titres, 
toujours en supposant la dilution du risque résiduel : 


Bi BB … BiBx 
BB B5 … B:Bx 

Q=6? 
BuBi BxB … BK 


Cette matrice, à l’évidence symétrique, est donc d’un calcul fort aisé. 


Transposition de la théorie du CAPM 
au calcul des prix des actions!? 


La théorie du CAPM est formulée en termes de rendements espérés. 
Nous voulons maintenant la transposer à la détermination des prix 
d'équilibre des titres. Nous nous situons dans le contexte d’une pé- 
riode, disons un an. Nous voulons déterminer le prix d’un titre qui 
paiera dans un an un cash-flow-risqué, désigné par P.. Ce dernier est 
donc une variable aléatoire. 


16. La matrice variance-covariance est en effet symétrique. 


17. Pour rédiger cette section, nous nous inspirons de : Copeland et Weston (1988), 
op. cit., chap. 7, p. 202-203. 
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Pour ce faire, nous écrivons la SML dans une forme où apparaît le 
prix du risque, désigné par À. 


Cov(R;,R,,) 


E(R;)=R; +[E(R,)-R | TE 


=R;+ACov(R,,R,,) 


X est le rendement excédentaire du marché par unité de risque. On 
peut donc l’assimiler au prix du risque. Par ailleurs, le rendement du 
titre j est égal à: 


P,-P 
R; _ € 0 
Po 
L’espérance du rendement du titre j est donc de: 
E(P.)-P 
EfR; ] = E(Pe)= Po 
Po 
En substituant cette valeur dans le CAPM, on obtient: 
E(P.)-P 
HD =R,+ACov(R;,R,,) 
0 


En mettant Po en évidence, on décrypte l’expression du prix d’équi- 
libre du titre j dans le contexte du modèle du CAPM: 


L E(P.) 
© 1+RÇ+ACov(R,R,,) 


Cette expression obéit à la forme générale de l’équation du prix d’un 
titre dans le contexte d’une période, forme égale à: 


__ E(CF) 
* 1+E(R,) 


où P, est le prix d’un titre; E(CF), l'espérance du cash-flow qu’il 
paiera à la fin de la période et E(R)), le taux de rendement requis par 
les investisseurs pour détenir cet actif. Dans sa forme générale, ce taux 
est égal à: 

ER) = R£ + prime de risque 
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Chaque modèle donne une forme particulière à la prime de risque. 
Dans le cadre du CAPM, l'équation antérieure indique que cette 
prime est égale à : ACov(R 5R m ] , soit le produit du prix du risque par 
la quantité de risque du titre j, quantité mesurée par la covariance du 
rendement du titre j avec celui du portefeuille du marché. 


Il existe une autre façon de calculer le prix d’équilibre d’un actif 
risqué dans le cadre du modèle du CAPM qui fait appel cette fois-ci à 
la technique dite de l’équivalent-certain. Pour y arriver, il suffit d’ex- 
primer la covariance entre les rendements du titre j et du portefeuille 
du marché en termes du prix du titre j. On a donc: 


Fe _. P; 
Cov(R;,R,, }= Cov| TR, 
Po 
Par définition, cette covariance est égale à: 
Pe— Po EC) 
Po Po 


=E 


[Rx -E(R )] 
Cette expression se simplifie comme suit: 
1 
Cov(R;,R, )= SE [P.-E(P.)][R, -E(R,, )] } 


0 


1 
=—Cov(P,,R., 
L ov(P, ) 


Il suffit maintenant de remplacer, dans la formule antérieure de Po, 
Cov(.) par cette valeur : 


_ E(P.) 
" I4+RÇ+A(1/P;)Cov(P,R,) 


En mettant P, en évidence, on trouve finalement : 
E(P,)-ACov(P.,R;) 
1+R: 


P, = 
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C’est là l’expression finale du prix d’un titre en termes d’équivalent- 
certain. C'est-à-dire qu’au numérateur de cette formule, on calcule 
l’équivalent-certain de l’espérance du cash-flow promis par le titre en 
lui soustrayant une prime de risque. Cette prime est égale au produit 
du prix du risque et de la quantité de risque du titre , quantité mesurée 
par la covariance entre le cash-flow aléatoire du titre et le rendement 
du portefeuille du marché. Après prise en compte du risque du cash- 
flow au numérateur, on peut alors actualiser l’espérance du cash-flow 
ainsi corrigée au taux sans risque. Au numérateur de Po, on a donc 


retranché une pénalité pour prendre en compte le risque que présente 


le cash-flow du titre analysé!$. 


18. Dans la pratique, il est courant de relier le prix d’un titre à son bêta respectif à 
l’aide de l’équation économétrique suivante : 


P 
() = Go + (PAYOUT), +@, (bêta), +0, (EGR), +e; 


où le ratio (P/E); représente le rapport cours-bénéfices de l’action, P étant son 
prix et E, le bénéfice par action; PAYOUT, le taux de paiement du dividende à 
la fin de l’année de l’émetteur de l’action i ; EGR, le taux de croissance des profits 
au cours des cinq dernières années de l’émetteur de l’action et bêta, bien entendu 
le bêta de l’action en cause. En fait, cette équation est une transposition du 
modèle de Gordon au plan empirique. Cette régression est effectuée en coupe 
instantanée en recourant à diverses actions cotées en bourse. Lorsque l’on effectue 
cette régression, on s’attend à ce que le bêta ait un signe négatif. En effet, plus 
le bêta d’un titre est élevé, plus son risque est important, ce qui devrait se 
traduire par une baisse de son rapport cours-bénéfices ou par une hausse de 
l'inverse de ce rapport qui est une mesure du rendement du titre. Plus le risque 
d’un titre est important, plus son prix doit s’ajuster à la baisse pour inciter un 
investisseur qui éprouve de laversion pour le risque à le détenir. Par ailleurs, 
dans cette équation EGR mesure la croissance anticipée des profits d’une com- 
pagnie qui est évaluée par la croissance observée de ceux-ci au cours des cinq 
dernières années. Certes, un tel indicateur des profits prévus peut se révéler 
inadéquat. Quoi qu’il en soit, une hausse des profits anticipés devrait évidem- 
ment se traduire par une hausse du rapport cours-bénéfices. Une compagnie 
donnée, qui œuvre disons dans le secteur de la biotechnologie, peut avoir un bêta 
important mais quand même jouir d’un (P/E) élevé si on anticipe une croissance 
marquée de ses profits au cours des prochaines années, ce qui s’observe souvent 
dans le secteur de la biotechnologie. Finalement, le modèle de Gordon indique 
que la variable taux de paiement du dividende devrait exercer un impact positif sur 
le rapport cours-bénéfices. Mais le recours à cette variable dans la pratique ne 
va pas sans failles, puisqu'elle peut être porteuse d’effets de signalisation. 
Notons rapidement les limites d’une telle régression. Celle-ci postule d’abord 
une relation linéaire entre le rapport cours-bénéfices et ses facteurs explicatifs, ce 
qui n’est peut-être pas le cas. Ensuite, l’analyse des résidus peut signaler de 
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Comme on a pu le constater dans le chapitre 6, consacré aux 
méthodes numériques utilisées en économétrie, l’actualisation au taux 
sans risque jouit d’une très grande popularité dans le domaine de l’éva- 
luation des produits dérivés. Pour déterminer le prix d’un produit 
dérivé, on calcule l’espérance de ses cash-flows dans un univers neutre 
au risque. On peut alors actualiser lesdits cash-flows au taux sans risque 
pour en arriver à la détermination du prix d’équilibre du produit dérivé. 
Nous envisageons maintenant l’estimation de la SML par la méthode 
des MCO, en insistant sur les conditions qui doivent être satisfaites 
pour que l’on puisse recourir à une telle méthode d’estimation. 


L'estimation de la SML par la méthode des MCO 


La SML est formulée en termes de rendements espérés. Or, ceux-ci 
ne sont pas directement observables. Pour arriver à exprimer la SML 
en termes de données observables, on suppose que le rendement d’un 
titre obéit à un jeu non biaisé (fair game)” représenté par le processus 
stochastique suivant : 


Ri _ E(R: ) + B; [Rs E ER. ] +Ei 


On remplace ensuite E(R:) par son expression en termes de la SML et 
après certaines manipulations évidentes, on obtient: 


Ri -R£ = Bi[R;» -R;l+e: 


signaler de l’hétéroscédasticité ou d’autres problèmes statistiques. Cette analyse 
peut entre autres indiquer certaines transformations souhaitables des variables 
indépendantes (variables élevées au carré, transformation logarithmique et plus 
généralement transformation Box-Cox) qui sont de nature à mieux expliquer le 
rapport cours-bénéfices. La présence de multicollinéarité, qui est fréquente dans 
ce type de régression, diminue la fiabilité des coefficients estimés, pouvant même 
se traduire par des signes contraires à ceux qui sont anticipés pour les différentes 
variables et par une forte instabilité dans l’estimation des coefficients d’une 
période à l’autre. Pour plus de détails sur ce type d’analyse empirique, on consul- 
tera: Damodaran, A., (1996), Investment Valuation, John Wiley & Sons, New 
York, chapitre 14. 

19. Pour plus de détails à ce sujet, voir: Copeland, T.E. et J.E. Weston (1988), 


Financial Theory and Corporate Policy, Addison Wesley, New York, p. 212 et 
suivantes. 
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Après introduction d’une constante, la forme empirique de la SML 
est donc de: 


Ri -R£ = 0; +B:[Rx -Rl+e: 
Soit à définir : ri = Rir — R# et rt = Rint — R#. On a donc finalement: 


ti =; +f; [ne [+ Ex 


Cette régression est donc formulée en termes de rendements excé- 
dentaires, ou de primes de risque. Forts des enseignements délivrés 
par les chapitres antérieurs, nous pouvons maintenant énoncer les 
conditions qui sont requises pour que l’on puisse recourir à la méthode 
des MCO pour estimer les paramètres de cette équation: 


i) Les primes de risque doivent être stationnaires. En effet, si 
elles ne l’étaient pas, on tomberait dans le piège des régres- 


sions fallacieuses?!. 


ii) Les résidus de cette régression doivent être homoscédastiques 
et non autocorrélés. S’ils ne l’étaient pas, l’estimateur des 
MCO ne serait pas efficient. De plus, ces résidus doivent 
obéir à une distribution normale. Dans le cas contraire, les 
tests ne seraient valables qu’asymptotiquement, entre autres. 


De plus, en vertu du CAPM classique, la constante de la régres- 
sion ne doit pas être significativement différente de 0, la relation entre 
les primes de risque doit être linéaire et l’estimé du bêta ne doit pas 
varier dans le temps. 


Nous avons auparavant esposé le test du CAPM tel qu’effectué 
par Berndt (1991). Selon Mills (1993)7°, l’absence d’hétéroscédasticité 
dans les estimations de Berndt, notamment sous sa forme condition- 
nelle, est plutôt surprenante du fait des travaux antérieurs à ce sujet. 


20. Certes, la constante ne devra pas être significativement différente de 0 pour que 
le CAPM soit valable. Cette constante est appelée #/pha de Jensen. Elle mesure le 
rendement exceptionnel sur un titre, c’est-à-dire un rendement en sus de celui 
que justifie l’ampleur du bêta de ce titre. Un tel rendement exceptionnel n’a pas 
sa place sur des marchés efficients. 


21. Cette allégation doit cependant être nuancée si les primes de risque sont 
cointégrées, comme cela devrait être. À ce sujet, voir le chapitre 9. 


22. Mills, T.C. (1993), The Econometric Modeling of Financial Time Series, Cambridge 
University Press, Cambridge. 
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De plus, d’autres études ont révélé que le bêta d’un titre est variable 
dans le temps. L'analyse du CAPM dans un contexte GARCH-M 
multivarié apparaît donc appropriée. C’est cette formulation que nous 
considérons maintenant. 


Analyse du CAPM dans le contexte GARCH-M multivarié?3 


Envisageons d’abord ce que l’on entend par un modèle de régression 
multivarié. Pour y arriver, on remplace la variable dépendante y. du 
modèle suivant : 


m m 
Yt = X + ay. +Ÿ Bix. ; +u: 
il i=0 
par un vecteur : 


Yt = [y V2t +  Yn l 


On obtient alors le modèle de régression multivarié* (dynamique) 
suivant : 


Ye C+Ÿ ATy.: +Ÿ BTx, +ut 


i=l i=0 


Dans cette expression, € est un vecteur (n X 1) de constantes ; Az, …, 
Am sont des matrices (n X n) de coefficients retardés, Bo, B1, ..….,Bin 
sont des matrices (k X n) de coefficients et u. est le vecteur (n X n) des 
résidus. Sans entrer dans les détails, disons que l’estimation d’un 
modèle multivarié est une simple extension du cas univarié. 


Qu’entendre maintenant par un GARCH-M multivarié ? Dans 
sa forme simple, un modèle GARCH-M peut s'exprimer de la façon 
suivante : 


y. =X,B+ôh,+e, 


23. Cette section s'inspire de Mills (1993), op. cit. 


24. Un tel modèle est donc multivarié (plusieurs variables) du point de vue des 
variables dépendantes. Se pose alors le problème de la modélisation des cova- 
riances entre les résidus de ces variables. Le modèle GARCH-M se présente 
comme une tentative de modéliser l’hétéroscédasticité conditionnelle de ces 
résidus. 
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P q 
h: = +Y vie: +Y oh; 
il i=l 


où e|P e N(0,h.), F1 étant l’ensemble d’informations disponi- 
bles jusqu’à t-1. Ce modèle est une simple adaptation du modèle 
ARCH-M. Dans le cadre d’un modèle multivarié, modèle qui a été 
présenté au début de cette section, chaque élément de la matrice 
variance-covariance conditionnelle peut s'exprimer comme suit, en 
supposant un processus GARCH(1, 1): 


e = Ci FaiEie1Ejes + bi ei 
ce qui complète la présentation du modèle GARCH-M multivarié. 
Pour estimer ce modèle, on suit la procédure habituelle en maximi- 


sant la fonction de vraisemblance en recourant à l’algorithme BHHH. 


Cette digression étant faite, nous pouvons maintenant nous pen- 
cher sur la mise en forme du CAPM selon la méthode du GARCH-M 
multivarié qui permet, entre autres, de rendre le bêta variable dans le 
temps. Cette formulation du CAPM est surtout due à Bollerslev, 
Engle et Woolridge (1988)*. Hall, Miles et Taylor (1989) ont égale- 


ment présenté une version de ce modèle?6. 


De manière à transposer le CAPM dans le cadre d’un modèle 
GARCH-M, il faut d’abord l’exprimer sous une forme conditionnelle. 
L’espérance des rendements excédentaires devient donc condition- 
nelle à l’ensemble des informations disponibles au temps t- 1, désigné 
par F+1. Sous forme conditionnelle, l’équation de la SML devient : 


E(R, IP, ] En Rs _ pi [E(Rx C2 ) jo Rs: | 
et le bêta: 
L Cov(R 


B e Rm|Pi1) 
pt 


V(R|P. 1) 


25. Bollerslev, T., R.F. Engle et J.M. Woolridge (1988), «A Capital Asset Pricing 
Model with Time-Varying Covariances », Journal of Political Economy, 96, p. 116- 
131. 

26. Hall, S.G., D.K. Miles et M.P. Taylor (1989), «Modelling Asset Prices with 
Time-Varying Betas», Manchester School, 57, p. 340-356. 
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Dans ce qui suit, de manière à simplifier la notation, nous omettrons 
l’ensemble d'informations D: dans la notation des moments condi- 
tionnels : indice t rattaché à ces moments en tiendra lieu. La matrice 
variance-covariance conditionnelle des rendements est de: 


V.(Rx) Cov, (Ru, Ru 


Cov,(R Rx) V (Rx) 


Comme l’on suppose que cette matrice peut maintenant varier dans le 
temps, il en résulte que les rendements espérés et les bêtas seront eux- 
mêmes variables dans le temps. 


Cette formulation du CAPM n’est pas encore opérationnelle 
puisqu'il n’existe pas de séries sur les rendements espérés. Pour pallier 
à ce problème, Bollerslev, Engle et Woolridge ont supposé que le prix 
du risque est constant. Par rapport à la formulation présentée anté- 
rieurement, ce prix comporte la variance du rendement du porte- 
feuille du marché à son dénominateur et non son écart-type. Le prix 
du risque X est donc égal à: 


_ [E.(Rw)-Rr1] 
Vi(R nt ) 


La prime de risque conditionnelle du portefeuille du marché peut 
alors être exprimée en termes de sa variance conditionnelle : 


Ë, (Rx ) E Ris = AV: (Rx ) 


Suite à cette hypothèse, l'équation de la SML conditionnelle 
devient : 


E, (Re ) = Rs 
Vire) 


E(R,)=Rs, 1 +Cov,(R, Run) 


=R;,1+Cov.(R,Ran JA 


pt? 


En définissant u,, comme : 
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on obtient finalement : 
R, =Rr,1+ACov,(R, Re] +Upe 
De la même façon on peut écrire: 


Re = R +AV. (Rx)+u 


Ces deux dernières équations servent à estimer la version GARCH-M 
multivariée du CAPM. On constate que : 


ét que: 


Cor RE lustel=b 


pmt 


Ce modèle se formule comme suit: 


R ppt 
R,-Rs1l [oi 0 O0 1 ue 
= +2 Re 
Re = Rs LE 0 1 0 Ut 
ho 
ou sous forme matricielle compacte : 
y = à + dvech(H) + u: 
où : 
27 


Ab 
Yt— [Rx RnRs -R;,: | 


vech(H, ) L jee selon | 


27. L'opérateur matriciel vech vectorise le triangle inférieur de la matrice variance- 
covariance conditionnelle. 
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Bollerslev, Engle et Woolridge (1988) ont estimé ce modèle sur 
un échantillon américain comprenant des bons du Trésor à 6 mois, 
des obligations du Trésor à 20 ans et des rendements d’actions cotées 
à la NYSE. Leur échantillon consistait en des données trimestrielles 
s’étirant de 1959 à 1984, le taux sans risque choisi étant celui des bons 
du Trésor à 3 mois. L’estimation du prix du risque (à) fut d’environ 
0,5. Les estimés des paramètres de la variance conditionnelle furent 
très significatifs pour les bons et les obligations. Pour les actions, ils 
ne l’étaient pas individuellement mais ils étaient hautement significa- 
tifs lorsque regroupés. Ces estimés sont utilisés pour calculer les 
primes de risque : « + d vech(H) et les bêtas variables dans le temps 
implicites. Les bons et les obligations ont des primes de risque crois- 
santes après octobre 1979, le bêta des actions est rapproché de 1, le 
bêta des obligations légèrement supérieur à 1 et celui des bons près de 
0. Soulignons finalement que Hall, Miles et Taylor ont donné crédit 
à la formulation du modèle intertemporel du CAPM de Merton, qui 
donne la part belle à la fonction de consommation des agents écono- 
miques, cela dans le cadre du GARCH-M multivarié?, 


6. UNE DIGRESSION : LA THÉORIE DE L'APT2? 


Nous ne saurions quitter ce chapitre sans faire état d’un modèle 
important en finance moderne : l'APT (Arbitrage Pricing Theory). En 
effet, celui-ci se veut plus général que le CAPM qui peut donc être vu 
comme un cas particulier de APT. La section qui suit nous permettra 
par conséquent de mieux maîtriser le CAPM. 


6.1. Le principe de l'arbitrage 


Le modèle de APT repose sur une notion bien connue en finance 
moderne : l'arbitrage. Lorsque l’équilibre des marchés financiers est 


28. Voir à ce sujet: Merton, R.C. (1973), « An Intertemporal Capital Asset Pricing 
Model», Econometrica, 41, p. 867-887. 


29. Pour cette section, les références sont les suivantes : Copeland et Weston (1988), 
op. cit.; Ingersoll, J.E. (1987), Theory of Financial Decision Making, Rowman et 
Littlefield, Maryland, 4 édition, chap.7.; Elton, EJ. et M.J. Gruber (1995), 
Modern Portfolio Theory and Investment Analysis, New York, Wiley; Haugen, R.A. 
(1997), Modern Investment Theory, Prentice Hall, Englewoods Cliffs. 
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atteint, il ne doit subsister aucune possibilité d’arbitrage. On dira qu’un 
arbitrage est possible quand un investisseur qui réaménage son porte- 
feuille sans injecter d’argent frais et qui n’assume aucun risque addi- 
tionnel peut obtenir un rendement positif additionnel. Autrement dit, il 
y a alors possibilité d’un repas gratuit (free lunch). L'équilibre sur les 
marchés financiers est caractérisé par l’absence de telles opportunités. 


Pour mieux comprendre le principe de l’arbitrage, nous envisa- 
geons le cas de trois placements, dont les cash-flows respectifs appa- 
raissent au tableau 10.3. 


T'ABLEAU 10.3 


Cash-flows au temps to t b 
Placement 1 1 0,049 1,05 
Placement 2 —] 1,045 0 
Placement 3 —] 0 1,1025 


Trois placements sans risque s’offrent donc. Tous les trois coû- 
tent 1$. Le premier placement génère un cash-flow de 0,049$ au 
temps 1 et de 1,05 $ au temps 2. Le placement 2 donne pour sa part 
un cash-flow de 1,045 $ au temps 1 et aucun au temps 2. Finalement, 
le placement 3 fournit un cash-flow nul au temps 1 et un cash-flow de 
1,1025 $ au temps 2. 


Nous nous demandons s’il y a ici une possibilité d’arbitrage. 
Autrement dit, en réaménageant son portefeuille composé de ces trois 
placements, un investisseur peut-il dégager un profit net (free lunch) ? 
A cet effet, imaginons que notre investisseur effectue le réaménage- 
ment de portefeuille suivant. Il diminue le montant qu’il a investi dans 
le placement 1 de 10000 $. Selon le tableau 10.3, il se prive alors d’un 
cash-flow de 490$ au temps t et de 10 500$ au temps ti. Pour 
reconstituer ces cash-flows, il investit d’abord un montant de: 


490 
—— = 468,90$ 


1,045 
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dans le placement 1, ce qui lui permet de reconstituer le cash-flow de 
490 $ au temps t1 qui a été abandonné en sabrant dans le placement 1. 
Et pour reconstituer le cash-flow abandonné au temps t, il investit le 
montant suivant dans le placement 2 : 


10500 
JO ps si 


1,1025 
La facture de ce réaménagement de portefeuille se monte à: 
468,90 + 9523,81 = 9992,71$ 


ce qui est inférieur au cash-flow libéré lors du prélèvement dans le 
placement 1, soit 10 000$. En réaménageant son portefeuille, lindi- 
vidu a encaissé un profit net de 7,29 $. Il a ainsi réalisé un arbitrage ! 


À hauteur de 1$, le coût du placement 1 est donc trop élevé. 
Pour calculer le prix juste de ce placement, nous devons actualiser ses 
cash-flows aux taux au comptant (taux spot) appropriés. Chaque cash- 
flow doit être actualisé au taux au comptant dont la durée est égale à 
l’échéance de ce cash-flow. Or, les placements 2 et 3 sont assimilables 
à des obligations à coupon 0*° dont les durées sont respectivement de 
un et de deux ans. Selon le tableau 10-3, le taux au comptant d’un an 
est de 4,5 % et le taux au comptant de deux ans, de: 


1,1025 —-1= 0,05 ou 5% 


Le prix d’équilibre du placement 1 est donc de: 


0,049 1,05 
+ 


1,045  1,1025 


= 0,9993$ 


et non 1 $ comme l'indique le tableau 10.3. 


Une autre façon de constater que le placement 1 est trop dispen- 
dieux est de calculer sa valeur future. Pour ce faire, il faut connaître le 
taux de réinvestissement du premier cash-flow du placement 1 qui se 
produit au temps t1. Selon la théorie des taux à terme, le taux de 
réinvestissement, ou taux à terme d’un an dans un an, est ici égal à : 


30. Rappelons ici que les taux spots se calculent à partir des obligations à coupon 0. 
Pour plus de détails à ce sujet, on consultera: Racicot, F.-E. et R. Théoret 
(2000), Traité de gestion de portefeuille, op. cit. 
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(i+R,) | 11025 


(I+R;) 1,045 


_1=5,50% 


où f1 désigne le taux à terme (taux forward) d’un an dans un an; Ri, le 
taux spot de un an et Ro), le taux spot de deux ans. La valeur future du 
placement 1 est de: 


0,049(1,055)+1,05 =1,1017$ 


Or, le placement 3, qui est pourtant de même coût que le placement 
1, comporte une valeur future de 1,1025 $. Le placement 1 est donc 
surévalué en regard du placement 3. L'opération d’arbitrage consiste 
alors à vendre à découvert (short) le placement 1 et à acheter le 
placement 3, jusqu’à ce que l’équilibre sur les marchés financiers soit 
restauré. Celui-ci percera à jour quand le prix du placement 1 se sera 
abaissé à 0,9993 $ à la suite des ventes à découvert dont il est victime, 
cela en vertu des calculs précédents. 


Abordons maintenant le phénomène de l'arbitrage sur les mar- 
chés financiers dans une perspective beaucoup plus générale. Posons- 
nous la question suivante: comment peut-on calculer les prix 
d'équilibre des titres en recourant au principe de l’arbitrage ? Quelle 
est la structure de prix qui doit prévaloir pour qu’il n’y ait plus de 
repas gratuit? Or, un théorème bien connu en finance avance qu’il 
n’existera plus d’occasions d’arbitrage s’il existe un vecteur de prix p 
tel que: 

Bp = -a 
où B désigne la matrice des cash-flows des titres et a, le vecteur de 
leur coût (négatif). 

Forts de ce théorème, recalculons le coût du placement 1 de sorte 
qu’il n’y ait plus trace d’arbitrage. Le système d’équations Bp = -a 
s'écrit en faisant appel au tableau 10.3 : 


0,049 1,05 —a; 
Pi 
1,045 0 =| 1] 
P2 
0 1,1025 1 
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où a, désigne le coût (négatif) du placement 1. Les équations corres- 
pondant à ce système matriciel sont: 


1,045p; =1 
1,1025p; =1 


Selon les deux dernières équations, p1= 0,9569 et pr, 0,9070. En sub- 
stituant ces deux valeurs dans l’équation du placement 1, on trouve que 
a1 = —0,9993 $, ce qui correspond bien au résultat trouvé auparavant. 


Le système matriciel Bp = -a qui doit prévaloir lorsque l’équilibre 
s’est instauré sur les marchés financiers s’interprète donc très facile- 
ment. Il signifie tout simplement que dans un univers sans risque, le 
prix d’un titre est la valeur actualisée de ses cash-flows, les facteurs 
d'actualisation étant calculés au moyen des taux spots correspondants. 
Le vecteur p est en effet un vecteur de facteurs d’actualisation, ou de 
prix des périodes. Dans notre exemple : 


1 
pi = —— = 0,9569 
1,045 


alors que p2 est de: 


= ._ = 0,9070 
(1,05) 


Les facteurs d’actualisation des périodes p1 et p2 sont donc calculés à 
partir des taux spots correspondants. Le théorème précédent indique 
qu’à l'équilibre, la relation entre les cash-flows d’un titre et son prix 
est linéaire. 


Nous pouvons poser le problème d’une autre façon. Supposons 
que le coût du placement 1 soit de 1$. Quelle valeur doit alors 
prendre le cash-flow du placement 2 pour qu’il y ait absence d’arbi- 
trage ? L’équation Bp = -a s'écrit, dans ce cas: 


0,049 1,05 1 
Pi 

C 0 — l 
P2 

0 1,1025 1 
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où C21 désigne le cash-flow recherché du placement 2. En solution- 
nant, on trouve que C1 = 1,0284.$, ce qui implique que le taux spot 
d’un an doit être de 2,84%. Le coût du placement 1 est alors de: 


0,049 1,05 
+ ; =1$ 
1,0284 (1,05) 


Pour que le prix d'équilibre du placement 1 soit de 1$, il faut donc 
que le taux spot d’un an soit de 2,84 %°! si le taux spot de deux ans 
s'établit à 5 %. 

Nous sommes maintenant en mesure de formuler le théorème de 
l’arbitrage de façon plus rigoureuse en nous situant dans un univers 


sans risque. Soit le vecteur x suivant qui renferme les coefficients de 
réaménagement des n titres que comprend l’univers : 


(ee 


Un tel réaménagement constitue un arbitrage si deux conditions sont 
réalisées : 


i) ce réaménagement doit générer des cash-flows au moins 
aussi élevés que le portefeuille initial : 


B'x>0 
où B est la matrice des cash-flows des titres. 


ii) Le réaménagement de portefeuille doit libérer des fonds?? : 


aTx>0 


31. Autrement dit, le premier cash-flow du placement 1 doit être moins actualisé de 
façon à relever la valeur de ce placement. On peut également aborder ce pro- 
blème en termes de valeur future. Etant donné que le taux spot de deux ans est 
alors beaucoup plus élevé que celui d’un an, on pourra réinvestir le premier cash- 
flow du placement 1 à un taux plus important que dans le tableau 10.3. Ce taux 
de réinvestissement est de 7,21 %, ce qui donne au placement 1 une valeur future 
identique à celle du placement 3. Il n’y a donc plus possibilité d’arbitrage. 


32. N'oublions que le vecteur a est constitué des coûts des titres. Ses entrées sont 
donc négatives. 
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Et en se basant sur des théorèmes d’algèbre linéaire établis par 
H. Minkowski et J. Farkas, on peut énoncer les propositions suivantes : 


i) ou bien il existe un vecteur x tel que: 


aTx>0 


et que: 
B'x2>0 
c’est-à-dire qu’il existe possibilité d’arbitrage ; 


ii) ou bien, il existe un vecteur p de prix d'équilibre qui obéit au 
système linéaire suivant: 


Bp = -a 
et il n’y a plus possibilité d’arbitrage. 


Comme nous serons à même de le constater ultérieurement, 
cette condition s’avère très importante dans la formulation de l’équa- 
tion de base de l'APT : Arbitrage Pricing Theory. 


6.2. L'APT: aperçu général 


L’APT peut être présentée comme une théorie concurrente au CAPM, 
qui vise comme elle à déterminer les rendements d’équilibre des 
titres. Mais contrairement au CAPM, PAPT ne se situe pas dans le 
cadre de l’analyse moyenne-variance mis de l'avant par Markowitz au 
début des années 1950. Elle ne suppose donc pas que la distribution 
des rendements est normale. Elle ne donne pas non plus un rôle 
particulier au portefeuille du marché comme c’est le cas pour le 
CAPM où le portefeuille du marché, pièce maîtresse de la CML, doit 
être efficient. L’APT se veut beaucoup plus générale que le CAPM. 
Elle repose sur le principe de l’arbitrage tel qu’il vient d’être énoncé. 
Lorsque l’équilibre des marchés financiers est atteint, il doit en effet 
y avoir absence d’arbitrage. Le modèle de l’'APT essaie de dégager 
l’incidence de cet impératif sur les rendements d’équilibre des titres. 
Cependant, comme nous le verrons, en se voulant plus général que 
CAPM, il en arrive également à des conclusions moins spécifiques. 
C’est pourquoi ce modèle n’a pas réussi à détrôner le CAPM, qui jouit 
encore d’une grande popularité après plus de quarante ans d’existence. 
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6.3. Dérivation du modèle de l'APT 


La notion de matrice orthogonale 


La dérivation de l’'APT fait appel à la notion de matrice orthogonale. 
Rappelons-la. La matrice carrée A est orthogonale si 


ATA=AAT=I 
Si la matrice A est orthogonale, on peut donc écrire : 


AT'=AT 
Cette égalité matricielle implique que les vecteurs qui forment 
les lignes (ou les colonnes) d’une matrice orthogonale constituent un 
ensemble orthonormal. Désignons la i° ligne (ou colonne) de A par ai. 
Un ensemble orthonormal se définit comme suit: 


T 


aja;=1 sii=) 


a;ja;=0 Sii#) 


Dans une matrice orthogonale, chaque vecteur est donc norma- 
lisé pour avoir une longueur unitaire et est orthogonal à tout autre 
vecteur. 


Les équations de l'APT 


Le modèle de l’'APT fut proposé par Ross*? en 1976. On se souvient 
que dans le modèle classique du CAPM, l'espérance du taux de rende- 
ment d’un titre ne dépend que d’une seule variable : la prime de risque 
du portefeuille du marché, soit [E(Rm) - R4. Le modèle de APT se 
veut beaucoup plus général. A l’intérieur de celui-ci, le rendement du 
titre i est une fonction linéaire de k facteurs. L’équation du rendement 
du titre i (R;) est la suivante : 


33. Ross, S.A. (1976), « The Arbitrage Theory of Capital Asset Pricing », Journal of 
Economic Theory, décembre, p. 343-362. 
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où F; sont les divers facteurs et b:;;, les bêtas respectifs de ces facteurs. 
ei, l'innovation, représente le risque non systématique du titre i. 


Les prévisions du marché sont emmagasinées dans E(Ri). Les 
facteurs représentent des variables non anticipées pertinentes pour 
prédire Ri. Par exemple, l'inflation non anticipée peut être l’un de ces 
facteurs ou encore la croissance non anticipée du Pib. 


Reste à déterminer l’équation de E(Rj). Pour y arriver, il faut se 
rappeler que l’APT repose sur le principe de l'arbitrage. Ce principe 
s’énonce comme suit. À l’équilibre, les réaménagements de porte- 
feuilles qui ne requièrent aucune injection d’argent frais et qui, de 
plus, ne comportent aucun risque doivent dégager un rendement nul. 
Nous nous attaquons maintenant à la construction de portefeuilles 
d’arbitrage** en mettant en application ce principe. 


i) Un portefeuille d’arbitrage ne doit comporter aucune injec- 
tion d’argent frais. Soit x le vecteur des coefficients de réa- 
ménagement d’un portefeuille composé de n titres. Cette 
condition s'écrit comme suit : 


n 
X; — 0 
i=1 


Transposons-la en termes matriciels : 


soit : 


xT1-0 


34. Attention! Un portefeuille d'arbitrage désigne ici un portefeuille pour lequel il 
y a absence d’arbitrage. 
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ce qui signifie que le vecteur x doit être orthogonal au vec- 
teur unitaire 1 à l’équilibre. 


ïi) Un portefeuille d'arbitrage doit être sans risque. 


Les x; doivent être choisis de façon telle que pour tout facteur 
(ici k), la somme des bix soit nulle. 


n 


ÿ xiby = 0 


i=1 


Les bix sont les bêtas du facteur k pour chaque titre i. Cette équation 
signifie que la somme de ces bêtas pour le facteur k, pondérés par les 
facteurs de réaménagement de portefeuille, doit être nulle à l’équilibre. 
Autrement dit, le réaménagement n’accroît pas le risque relié au 
facteur k à travers l’ensemble du portefeuille. 


Le vecteur des bêtas des n titres associé au facteur k s’écrit 
comme suit : 


Dix 


Dax 


D 


La deuxième condition de l’absence d’arbitrage est donc la suivante: 


bk 
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soit, pour l’ensemble des facteurs : 


x!'B=-0 


où en supposant k facteurs, B est égal à: 


bi bo Dik 

ba bb» Dax 
B = 

b: b,» . . . br 


A Péquilibre, le vecteur x doit donc être également orthogonal à la 
matrice B qui renferme les bêtas des n titres pour les k facteurs. 


iii) Le taux de rendement d’un portefeuille d’arbitrage doit être 
nul. 


Cette condition s’écrit : 
R,=Y xiE(R;)=0 
soit, en termes matriciels : | 
R=x' E(R)=0 


A Péquilibre, le vecteur x doit finalement être orthogonal au vecteur 
ER). 


Les trois équations que nous venons d’écrire caractérisent les 
portefeuilles d’arbitrage. Elles sont: 


x11-0 
x/B=0 
x'E(R)=0 
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Le vecteur x est donc orthogonal à trois vecteurs ou matrice à 
l'équilibre : le vecteur unitaire, la matrice B et le vecteur E(R). La 
conséquence algébrique est que le rendement espéré du titre i est une 
combinaison linéaire du vecteur vecteur unitaire et du vecteur de ses 
bêtas factoriels, c’est-à dire: 


ECR,; ) = Ào + À b;, sit Abix 
C’est là le résultat principal de la théorie de APT. 


Pour mieux comprendre ce résultat algébrique, situons-nous dans 
un monde de trois titres. Supposons également qu’un seul facteur 
explique le rendement de ces trois titres. Les trois conditions de 
l’absence d’arbitrage ou de l’équilibre s’écrivent alors, en termes 
matriciels : 


ECR,) ECR;) ECR;)|x; 0 


Nous sommes ici en présence d’un système d’équations linéaires homo- 
gènes” du type Ax = 0. Pour que ce système admette une solution non 
triviale, il faut que la matrice A soit singulière, ce qui revient à dire 
dans notre exemple que son rang doit être inférieur à 3. La consé- 
quence algébrique est que la troisième ligne de cette matrice est une 


35. La solution d’un tel système d’équations est reliée au rang de la matrice A. Une 
matrice est d’ordre r si et seulement si l’un de ses déterminants d’ordre r n’est pas 
nul et que tout déterminant d’ordre supérieur à r est nul. Supposons que A soit 
une matrice carrée de dimension (n X n). Si le rang de cette matrice est de n, 
c’est-à-dire que cette matrice admet un inverse, alors le système d’équations 
homogènes admet une seule solution dite triviale : le vecteur x est alors égal au 
vecteur nul. Si le rang de la matrice A s’avère inférieur à n, le nombre d’inconnues 
est alors supérieur au nombre d’équations et le système admet alors plusieurs 
solutions non triviales. Dans le cas spécial où le rang de A est égal à (n—1), la 
solution est unique à un vecteur de proportionnalité près. L'espace vectoriel qui 
renferme l’ensemble des solutions d’un système d’équations homogènes est appelé : 
le kernel de A. Pour plus de détails sur la solution d’un système d’équations 
linéaires homogènes, on consultera par exemple: Judge, G.G. et al. (1988), 
Introduction to the Theory and Practice of Econometrics, 2° édition, John Wiley and 
Sons, New York. 
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combinaison linéaire des deux premières, celles-ci ne pouvant en effet 
être colinéaires. Il en résulte que: 


ECR;)} |1 bi 


E(R,)| [1 b, 


À l'équilibre, l’espérance du rendement d’un titre est donc une 
fonction linéaire de son bêta respectif. Si l’on retient la prime de 
risque du marché pour expliquer l’espérance du rendement d’un titre, 
on renoue alors avec le CAPM: À est alors le taux sans risque et À1, 
la prime de risque du marché. C’est dans ce sens que le CAPM est un 
cas particulier de APT lorsqu'il n’existe qu’un seul facteur explicatif 
du rendement d’un titre: celui du portefeuille du marché. 


S’il existe k facteurs explicatifs, la même méthodologie s’applique 
pour trouver l’espérance du rendement du titre i. 


ER; ) — Ào +Ab; +.….+ALbi 


Le coefficient À est assimilable au taux sans risque. En effet, si 
le titre i ne comporte aucun risque, tous ses b;; sont nuls. L’espérance 
du rendement du titre i se réduit alors à : 


E(R;)=A0 
ce qui ne peut être que le taux sans risque. 


Les autres X, de l’équation peuvent être interprétés en termes de 
rendement excédentaire, c’est-à-dire en termes de rendement requis 
au-delà du taux sans risque pour supporter une unité du risque associé 
au facteur j. Par exemple, À1 est le rendement excédentaire requis 
pour supporter une unité supplémentaire du risque associé au facteur 
1. Il peut donc être assimilé au prix du risque*f du facteur 1. On peut 
désigner ce rendement excédentaire par l’expression suivante : 


À = 0, —Rr 


36. On insiste ici sur la correspondance entre rendement excédentaire par unité de 
risque et prix du risque, cela pour chaque catégorie de risque. 
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où à; est le rendement d’un portefeuille qui comprend une unité du 
risque associé au facteur 1 et une quantité nulle de tout autre facteur. 
Et ainsi de suite pour les autres X.. 


L’équation de l’espérance du rendement du titre i peut donc être 
réécrite comme suit : 


E(R;)-R;=(8,-R;)b;, +(5,-R;)b;,+.….+(8,-R;)by 


En résumé, le modèle de l’APT renferme deux catégories d’équa- 


tions?’ : 


i) L’équation du rendement du titre 1: 
ii) L’équation de l’espérance du rendement du titre i: 


E(R;)-R;=(8, -R;)b;, +(5,-R;)b;,+...+(8, -R;)by 


Il est à noter que cette dernière équation peut être interprétée 
comme une régression linéaire si l’on formule les hypothèses 
suivantes :1) la distribution des rendements est normale ; 2) les facteurs 
ont été transformés linéairement de telle sorte que les vecteurs trans- 
formés soient orthonormaux. Les bit sont alors égaux à: 


_ COV(R;,ër) 
“ VAR(,) 


où Ôk est la transformation linéaire du k° facteur. 


Remarquons finalement que le modèle de l’APT est plus robuste 
que le CAPM: 1) il n’émet pas d’hypothèses quant à la distribution 
des rendements des titres. Le CAPM suppose pour sa part que cette 
distribution est normale ; 2) l'APT ne formule pas d’hypothèses fortes 
quant aux fonctions d’utilité des individus ; 3) les taux de rendement 


37. Les équations correspondantes pour le CAPM sont les suivantes. L’équation du 
rendement du titre i s’écrit, dans ce modèle: R; -R; =$;(R,, -R;)+e;. Alors 
que lPéquation de l’espérance du rendement du titre i est de: 


E(R;)=R;+B[E(R, )-R;|. 
38. En effet, pour que le CAPM soit valable en l’absence de l'hypothèse de la 


distribution normale des rendements, il faut que la fonction d’utilité d’un indi- 
vidu soit quadratique de façon à récupérer l’analyse moyenne-variance. 
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d'équilibre peuvent dépendre de plusieurs facteurs dans l’'APT, et non 
d’un seul comme c’est le cas dans le cadre du CAPM classique; 
4) V'APT n’accorde aucun rôle particulier au portefeuille du marché 
alors qu’il tient le haut du pavé dans le modèle du CAPM. De plus, le 
portefeuille du marché doit être efficient dans le modèle du CAPM, 
sinon ce dernier modèle n’est pas valable. 


En se voulant plus général, le modèle de l’'APT aboutit toutefois 
à des conclusions moins spécifiques que le CAPM. L’APT reste en 
effet muet sur l'identité des facteurs. C’est là son talon d’Achille. Le 
CAPM identifie pour sa part un unique facteur pour expliquer le 
rendement d’un titre : la prime de risque du marché. C’est pourquoi le 
CAPM jouit encore d’une grande popularité même si l’APT voulait 
au départ dominer le CAPM. 


6.4. Tests de l'APT 


La procédure habituelle pour tester le modèle de l’'APT est la sui- 
vante : 1) colliger des séries statistiques sur les rendements d’un groupe 
d’actions ; 2) recourir à l’analyse factorielle pour déterminer simulta- 
nément le nombre de facteurs et leurs bêtas pour chaque titre, c’est- 
à-dire estimer les paramètres et déterminer les facteurs de la première 
équation de l’APT: 


3) utiliser les bêtas ainsi calculés pour déterminer les primes de risque 
ou les À de chacun des facteurs. On recourt à la régression pour 
estimer ces primes de risque (rendements excédentaires) ou prix des 
diverses catégories de risque. C’est-à-dire que l’on estime les À; dans 
la seconde équation de APT : 


ER; ) = Ào +Ab;, +..+ALbi 


C’est là une régression en coupe instantanée où les E(Ri) sont 
approximés par une moyenne de rendements calculée sur la période 
de temps choisie et où les bi; proviennent de la première étape du test. 
On régresse donc les rendements moyens sur les bêtas pour obtenir 
les lambdas. 
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Comme cela fut mentionné auparavant, le modèle de PAPT ne 
spécifie pas la nature des facteurs: cela relève des tests empiriques. 
Les premières vérifications de l’'APT ont démontré que le marché ne 
rémunérait qu'un nombre limité de facteurs, trois ou quatre, sans 
plus. L’APT ne spécifie pas la nature des facteurs. Le test empirique 
de PAPT qui a retenu le plus d’attention est celui effectué par Chen, 
Roll et Ross? en 1983. Leur étude permet d’identifier quatre variables 
macroéconomiques comme candidates au titre de facteurs : 1) la pro- 
duction industrielle ; 2) le changement dans une prime de risque de 
défaut, mesurée par la différence entre les rendements des obliga- 
tions de cote AAA et celles de cote Baa; 3) la différence! entre les 
rendements à l’échéance des obligations gouvernementales à long et à 
court termes ; 4) l’inflation non anticipée. À première vue, le choix de 
telles variables surprend, c’est le moins qu’on puisse dire. Mais il se 
justifie par le concept même du prix d’un titre, qui peut être défini 
comme la valeur escomptée de ses cash-flows anticipés. La production 
industrielle est reliée aux cash-flows. Les autres variables retenues par 
Chen, Roll et Ross ont trait au taux d’escompte utilisé pour escompter 
les cash-flows dudit titre. Une telle analyse se révèle utile sur le plan 
empirique. Comme les facteurs sont orthogonaux*, du moins l’ana- 
lyse factorielle les a réduits à cette condition, il est en principe possible 
de choisir un portefeuille qui est protégé contre l'inflation sans que 
son exposition aux autres facteurs ne soit modifiée. On peut donc 
couvrir (bedge) les facteurs ! 


39. Chen, N.F. ef 41. (1983), « Economic Forces and the Stock Market: Testing the 
APT and Alternative Asset Pricing Theories», document de travail, UCLA, 
décembre. 


40. Cet écart représentant le risque de crédit d’une entreprise. 
41. Cet écart tenant lieu de la structure à terme des taux d’intérêt. 
42. C'est-à-dire qu’il y a absence de corrélation entre les facteurs. 
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CHAPITRE 


11 


LA MÉTHODE DES MOMENTS 
GÉNÉRALISÉS 


Ce chapitre présente une classe d’estimateurs aux propriétés asympto- 
tiques regroupés sous le vocable : méthodes des moments généralisés, 
que nous désignerons par l’acronyme anglais GMM (Generalized 
Method of Moments). Cette méthode présente plusieurs avantages : à) la 
méthode du GMM fait la synthèse de plusieurs estimateurs bien con- 
nus, comme l’estimateur des MCO), l’estimateur des variables instru- 
mentales, l’estimateur des doubles moindres carrés et l’estimateur des 
doubles moindres carrés non linéaires. De plus, il nous fournit un 
cadre d’analyse général pour la comparaison de ces divers estimateurs 
et leur évaluation ; üi) l’estimateur du GMM nous procure une solu- 
tion de rechange simple à d’autres estimateurs, spécialement dans les 
cas où il est ardu d’écrire la fonction de vraisemblance dans le but de 
calculer l’estimateur du maximum de vraisemblance. 


Il faut toutefois souligner que l’estimateur du GMM vaut pour 
les grands échantillons. C'est-à-dire que les propriétés désirables de 
cet estimateur ne seront obtenues que dans les grands échantillons. 
Ainsi, l’estimateur du GMM est asymptotiquement efficient mais il 
n’est que rarement efficace. 


1. INTRODUCTION À LA MÉTHODE DES MOMENTS 


Selon Hamilton (1994)!, une description générale de la méthode clas- 
sique des moments peut s’énoncer comme suit : soit un vecteur (a X 1) 


1. Hamilton, J.D. (1994), Time Series Analysis, Princeton University Press, Princeton. 
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de paramètres inconnus 8 qui caractérise la fonction de densité d’une 
variable observée y:. Supposons que l’on puisse exprimer les a mo- 
ments de la population comme des fonction de q, telles que: 


E(yi}=u(8) pour i=is,is, is. 


La méthode classique des moments estime 8 comme la valeur 6. pour 
laquelle ces moments de la population sont égaux aux moments 
échantillonnaux observés. C'est-à-dire que 6. est la valeur pour la- 
quelle les équations suivantes sont réalisées : 


1 


LR . 
i ne : 
Yy: pour 1=1;,1:,...,1, 
T t=1 


Hi (êr)= 


Illustrons la méthode des moments à partir d’un exemple simple, 
tiré de Judge et 41. (1988). Soit Yi, …, Ÿr, un échantillon aléatoire 
d’une population N(6, 0°). On sait que : 

E[Y|=0-u; 


et que: 


o?=E[v?]-(E[Y]) =u:-u 


où pi désigne le i* moment par rapport à l’origine. En égalant les 
moments de la population aux moments échantillonnaux, ce qui est le 
principe même de la méthode des moments, on obtient : 


et 


2. Judge, G.G., R.C. Hill, WE. Griffiths, H. Lütkepohl et T.-C. Lee (1988), 
Introduction to the Theory and Practice of Econometrics, 2° édition, John Wiley and 
Sons, New York, p. 61-62. 
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Par conséquent, 


T 
De es 

22 | pe Ve) 

° T TA 1) 


La méthode des moments nous a donc permis d’estimer les deux 


premiers moments de notre population*. 


Le cas précédent est le plus simple, désigné en anglais par location 
model. Mais il se peut que, pour estimer un paramètre, il faille recourir 
à plusieurs moments. Il faut alors pondérer ces moments d’une façon 
ou d’une autre pour estimer lesdits paramètres. Soit g le vecteur des 
moments. Pour estimer les paramètres d’un modèle, il faudra alors 
minimiser une fonction critère représentée par la forme quadratique 
suivante (Q): 


Q=-8 "We 
où W est la matrice de pondération de ces moments. Tout repose 
alors sur la sélection de la matrice W. Hamilton (1994) relate l’histo- 
rique de l’évolution de cette matrice qui devait aboutir à la méthode 
du GMM. Un estimateur basé sur la minimisation d’une expression de 
type Q fut appelé #inimum chi-square par Cramer en 1946. Ferguson 
en 1958 et Rothenberg en 1973 ont retenu la même appellation alors 
que Malinvaud en 1970 le nommera: estimateur de distance minimale. 
Mais il faudra attendre Hansen en 1982 pour avoir la forme la plus 
sophistiquée et la plus rigoureuse de cette approche, soit la méthode 
des moments généralisés, dont l’acronyme est le GMM*. Selon 


3. À remarquer cependant que l’estimateur de la variance est biaisé. L’estimateur 
T 


Dre 


il 
T-1 


4. L'article de base en ce qui concerne l’approche du GMM est : Hansen, L. (1982), 
«Large Sample Properties of Generalized Method of Moments Estimator », 
Econometrica, 50, p. 1029-1054. Pour une présentation simplifiée, voir: Hall, A. 
(1992), « Some Aspects of Generalized Method of Moments Estimation », docu- 
ment de travail, North Carolina State University ; Ogaki, M. (1992), « General- 
ized Method of Moments: Econometric Applications >, document de travail, 
University of Rochester. 


Lo 22 
non biaisé est de: 6° = 
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Davidson et McKinnon (1993), l’idée essentielle qui sous-tend la 
méthode du GMM est que des conditions de moments peuvent être 
utilisées non seulement pour spécifier un modèle mais également 
pour définir les paramètres de celui-ci. La meilleure façon de com- 
prendre cette méthode est de la positionner par rapport aux méthodes 
d’estimation classiques, sujets qui font l’objet des prochaines sections. 


2. LA MÉTHODE DES MOMENTS ET LES MCO 


La méthode du GMM tire son intérêt du fait que plusieurs problèmes 
d'estimation sont une simple fonction des moments. Pour fixer les 
idées, considérons le modèle de régression linéaire suivant : 


y = XB+e 


où y est un vecteur de dimension (n X 1), X est une matrice de 
dimension (n X k), B est le vecteur des paramètres à estimer de 
dimension (k X 1)et e, le vecteur des résidus, de dimension (n X 1). 
e - Q(0, o?), Q étant une distribution quelconque. Supposons égale- 
ment que X soit orthogonale à e, c’est-à-dire : 


E(XTe)=0 
Nous voulons ici estimer le vecteur f. Nous savons qu’au niveau de la 
population : 
E[X"(y-xB)]-0 


puisque e = y — X$. La méthode transpose cette dernière équation au 
niveau échantillonnal. Pour ce faire, on remplace l’opérateur E par 
son équivalent échantillonnal, soit la moyenne. On a donc: 


1 

—X"(y-XB)=0 

n 
Comme nous savons que b réalise l’orthogonalité entre la matrice 
d'observations X et le vecteur des résidus e, il est donc loisible de 


5. Davidson, R. et J.G. Mackinnon (1993), Estimation and Inference in Econometrics, 
Oxford University Press, New York. 
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transposer ce résultat au niveau échantillonnal. $, soit l’estimateur de 
B, devra donc réaliser l’égalité suivante : 


1 : 
XX" (y-xf)- 0 


On peut donc solutionner cette équation de moments pour B: 


A 


Brom = (X'x) xTy 


soit l’estimateur des MCO ! On retrouve donc l’estimateur des MCO 
non pas en mimimisant la somme des résidus mais bien en recourant 
à l’équation implicite des moments. 


3. LA MÉTHODE DES MOMENTS ET L'ESTIMATEUR 
DES VARIABLES INSTRUMENTALES 


Supposons que : 
E(X°e) #0 


Nous devons alors recourir à des variables instrumentales pour renouer 
avec les conditions d’orthogonalité entre ces variables et les résidus : 


E(X'e)=0 


On transpose facilement la section précédente au problème qui nous 
intéresse, soit déterminer un estimateur convergent de f. L’ortho- 
gonalité entre les variables instrumentales et les résidus au niveau 
échantillonnal s’écrit donc comme suit: 


_2"(y-x$)-0 


n 


La solution : 


B=-(z'x) Z'y 
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n’est envisageable que lorsqu'il est possible d’inverser la matrice ZTX. 
Cette condition est valable si le système d’équations est exactement 
identifié, c’est-à-dire que les variables instrumentales permettent 
d’identifier exactement le vecteur fB des paramètres. L’estimateur qui 
résulte de la condition des moments est appelé estimateur des moindres 
carrés indirects. 


Dans la pratique, le nombre d’instruments excède habituelle- 
ment le nombre de paramètres à estimer. On est alors confronté à un 
système suridentifié et la matrice ZTX, qui n’est plus alors une matrice 
carrée, ne peut donc plus être inversée. On pourrait à la limite se 
délester d’instruments de telle sorte que le système d’équations soit 
exactement identifié, mais on ferait alors abstraction d’informations 
pertinentes pour l’estimation. 


Par simple analogie avec les MCO, on pourrait estimer le vec- 
teur f en minimisant la forme quadratique suivante, qui représente, 
grosso modo, la somme des résidus au carré: 


Me si fe" si] 


On remarquera que l’on pondère ici les moments d’égale façon. 
L’estimateur qui en résulte s’avère convergent, mais comme le sys- 
tème de pondération des moments n’est pas optimal, l’estimateur 
obtenu ne fait pas figure de meilleur de sa classe. Hansen (1982) a 
dérivé l’estimateur optimal dans sa classe pour le problème précédent. 
Il suffit de minimiser le système suivant. L’estimateur qui en résulte 
est appelé GMM : 


Min {zt(5-x6)] 9121 (5 -xé) 


6. Hansen, L. (1982), « Large Sample Properties of Generalized Method of Mo- 
ments Estimator », Econometrica, 50, p. 1029-1054. Pour une présentation sim- 
plifiée, voir : Hall, A. (1992), « Some Aspects of Generalized Method of Moments 
Estimation », document de travail, North Carolina State University; Ogaki, M. 
(1992), « Generalized Method of Moments : Econometric Applications », docu- 
ment de travail, University of Rochester. Ce chapitre est basé sur le cahier de 
recherche suivant: Racicot, F-E. et R. Théoret (2001), « La méthode économé- 
trique du GMM et l'estimation des paramètres de modèles financiers stochas- 
tiques. Analyse d’un cas : le modèle de taux d’intérêt de Schaefer et Schwartz», 
document de travail du CRG, Ecole des sciences de la gestion. 
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-1 


| 1 
où V ! est un estimateur convergent de 4 V —(ZTe) . Selon 
n 


cette formulation, une restriction estimée de façon moins précise? se 


verra attribuer une pondération plus faible, par l'intermédiaire de la 


matrice V_!, qu’une restriction qui est estimée avec plus de précisionÿ. 


Dans le cas où les erreurs sont homoscédastiques et indépendantes, 
l’estimateur qui découle de la minimisation du critère associé au GMM 
se confond avec l’estimateur des doubles moindres carrés (2SLS) : 


a [1 Ts 24 : 
ä -[z'{-x$)] Ÿ [7 (7-8) s 
(xXTZ)V (ZT y-2Tx$)=0 
De cette équation, il résulte que b est égal à: 
B=(xTzV 1ZTx) (xTZ)V ZT y 


Il reste à spécifier la valeur de V'!. Sous les hypothèses actuelles 
d’homoscédasticité et du caractère IID de l’innovation, la méthode 


: 1 
des moments suggère que : V ! = [6° /n° Jz"2) . La forme finale 
de B est de: 


Ê= (x z(2'2)" 2x) (x'z(2"2)" z'y) 


Ce qui est bien l’estimateur des doubles moindres carrés. 


Ouvrons ici une parenthèse les doubles moindres carrés non 
linéaires. Comme cela fut mentionné auparavant, y a alors la forme: 


y = F(XP)+e 


7. C'est-à-dire qui comporte une variance plus élevée. 


8. C'est-à-dire qui comporte une variance plus faible. 
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Pour obtenir les doubles moindres carrés non linéaires selon la méthode 
des GMM, il suffit de remplacer dans la fonction précédente Min(.) 


l’expression Z'(y-x6)| par A (y-1(x.6))} - 


4. GMM ET CONDITIONS D'ORTHOGONALITÉ 


De façon générale, la méthode du GMM est basée sur des conditions 
d’orthogonalité de la population : 


E[g(y,X,66)]= 0 


où g(.) est une fonction continue de (y, X) et de paramètres qui sont 
uniques et qui font que l’espérance égale zéro. 


Précisons les propriétés de l’estimateur des GMM en les reliant 
aux conditions d’orthogonalité. L’estimateur des GMM résulte du 
problème de minimisation suivant : 


Min m(y,x. 6)" Wm(yix.)| 


n 
où m(y,X,68)=1/ ny g(y; ,X;,0) et où W, peut être estimée par la 
= 
matrice de White (1980), dite encore HCCM, ceci pour avoir le 
meilleur estimateur convergent de cette matrice. On trouve 6 en 
solutionnant la condition suivante de premier ordre: 


om. 
= Q W,m(.) = 0 
08 
: : . _ ” om 
où l’on symbolise la matrice des dérivées premières par G = Fr 


… La distribution de Ô résulte d’une approximation de Taylor de 
g(8) autour de 69. Dans son article, Hansen (1982) a démontré que : 


ô- x{e,.(G'w)" c'wowe(c'w)") 
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où Q = Efe(y,X00)e(,X.00)" | qui est tout simplement la variance 


de la condition des moments. Hansen (1982) a démontré qu’un 
choix optimal de W est simplement un estimé hétéroscédastique et 
convergent de: 


-1 
E] g(y,X,6, Je(,xXe)" | 5: tn 


Si l’on dispose d’un estimé convergent de 8, alors un estimé de Q°! 
peut être obtenu. La distribution asymptotique de 8 se réduit alors à : 


5-Nfo,(G'ac)") 


Quelle que soit la matrice de pondération W, l’estimateur du GMM 
est toujours convergent et non biaisé asymptotiquement et lorsque 
l’on recourt au W optimal, l’estimateur du GMM est alors 
asymptotiquement efficient dans la classe des estimateurs définis par 
les conditions d’orthogonalité. Finalement, la matrice de White (1980), 
dite encore HCCM, semble être le meilleur candidat pour cette 
matrice de pondération. 


5. MAXIMUM DE VRAISEMBLANCE ET GMM 


La méthode du maximum de vraisemblance s’intègre facilement dans 
l'univers du GMM. Pour estimer les paramètres selon cette méthode, 
il suffit de réaliser la condition suivante : 


dInL(6,X) 
96 


c’est-à-dire qu’au maximum de vraisemblance, le score est nul. Dans 
le langage du GMM, cette condition s’écrit comme suit : 


m(y,X,6) = _ = 0 


ce qui est simplement une condition de moments. 
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Précisons d’avantage. Dans le cas le plus simple, la méthode du 
GMM est : 


Min( m(y,X,0) H-'m(y,X,6)) 
Q 


où H est la matrice des poids, soit la variance des conditions des 
moments. En termes de la méthode du maximum de vraisemblance, 
cette matrice s'écrit : 


soit la matrice d’information. L'opération Min s’écrit dans ce cas: 


de hL oinL L 
9808! 00 


soit l’équation qui définit l’estimateur du maximum de vraisemblance. 
Par conséquent, l’estimateur du maximum de vraisemblance peut être 
vu comme un estimateur GMMI. 


0 


Certains chercheurs préfèrent recourir au GMM plutôt qu’à la 
méthode du maximum de vraisemblance. Voici leurs motifs : 1) l’esti- 
mateur du maximum de vraisemblance est parfois difficile à calculer. 
Il existe alors un GMM qui est asymptotiquement moins efficace que 
l’estimateur du maximum de vraisemblance, mais qui est toutefois 
convergent et plus facile à calculer ; 2) quelquefois, l’on ne dispose pas 
assez d’information sur la distribution empirique des données pour 
spécifier complètement la fonction de vraisemblance. Par contre, on 
dispose habituellement d’une quantité suffisante d’information pour 
spécifier les conditions des moments et recourir ainsi à l’estimateur 


GMM. 


L’estimateur du GMM s'intègre donc dans la classe des estima- 
teurs semi-paramétriques. 
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6. APPLICATIONS 


Dans cette section, nous visons à montrer comment les paramètres 
d’une équation différentielle stochastique peuvent être estimés en 
recourant à la méthode du GMM. En effet, l’évaluation de ces para- 
mètres s’avère de toute première importance pour estimer les prix des 
options. Les paramètres que nous voulons estimer dans cette section 
sont ceux du modèle stochastique bifactoriel de taux d’intérêt de 
Schaefer et Schwartz (1984)°. Mais avant de présenter ce modèle, 
nous rappelons les formes générales des mouvements browniens en 
temps continu, puis en temps discret. Nous verrons alors comment la 
discrétisation d’une équation différentielle stochastique peut aboutir à 
un processus autorégressif. Nous serons alors à même de nous atta- 


quer à l’estimation des paramètres du modèle de Schaefer et Schwartz 
par la méthode du GMM. 


Le recours à la méthode du GMM marque une avancée impor- 
tante pour l’estimation des paramètres d’une équation différentielle 
stochastique dans le domaine de la finance empirique, notamment 
dans le champ de la théorie des options et de la finance corporative. 
En effet, bien souvent par le passé, on estimait ces paramètres en les 
égalisant directement à leur moment empirique correspondant. Ainsi, 
on estimait le drift d’un processus stochastique par la moyenne de la 
variable analysée et sa volatilité par son écart-type historique. Cette 
procédure n’apparaît pas des plus satisfaisantes, il s’en faut de beau- 
coup, quand on sait que la méthode du GMM permet d’estimer ces 
paramètres de façon robuste. 


La théorie des options est basée sur la résolution analytique ou 
numérique d’équations différentielles stochastiques!?. L'une des 
formes les plus simples de cette catégorie d'équations est mouvement 
brownien avec drifi. L’équation différentielle de ce mouvement est la 
suivante : 


dx =a(x,t)dt +b(x,t)dz 


9. Schaefer, S.M. et Schwartz, E.S. (1984), «A Two Factor Model of the Term 
Structure : An Approximate Analytical Solution », Journal of Financial and Quan- 
titative Analysis, 19, p. 413-424. 

10. Pour plus détails à ce sujet, on consultera: Dixit, A.K. et R.S. Pindyck (1994), 
Investment under Uncertainty, Princeton University Press, Princeton, chap. 3 et 4. 
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où a(.) désigne le drift et où dz suit un processus de Wiener, c’est-à- 
dire: dz=evdt, e - N(0, 1)!!. Le processus stochastique x(t), défini 
par l’équation précédente, est appelé processus d’Ito. 


Considérons l’espérance et la variance de dx. L’espérance de dx est 
égale à: 


E(dx)=a(x,t)dt 


puisque E(dz)=0. La variance de dx est égale à: 


V(dx) = E(dx)" -(E(dx))’ 


Cette variance contient des termes en dt, en (dt)? et en (dt)(dz), ce 
produit étant de l’ordre (dt)”?. Comme dt est infinitésimalement 
petit, les termes en (dt)? et en (dt)? peuvent être ignorés. La variance 
de dx est donc de: 


V(dx) = b? (x, t)dt 


On appelle a(x, t) le drift instantané du processus d’Ito et b?(x, t), la 
variance instantanée. 


Un cas spécial du processus d’Ito est le mouvement brownien 
géométrique qui s'écrit comme suit : 


dx = à x dt+o x dz 


Nous nous intéressons maintenant à la relation entre x et son loga- 
rithme. Soit : F(x) = log{x). En appliquant le lemme d’Ito étudié aupa- 
ravant, l’équation différentielle de F est la suivante : 


il 
dF=| a--0° |dt+0o dz 
2 


11. L’espérance mathématique d’un processus de Wiener est donc de: E(dz) = 0, et 
sa variance : V(dz) = E[(dz)] = dt. Par conséquent, l’écart-type de dz est de V dt, 
ce qui revient à dire que l’incertitude augmente avec la racine carrée du temps. 
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En appliquant les règles antérieures, on calcule que le changement 
dans le logarithme de x est distribué normalement avec une espérance 


1 : ’ 
a——0o° |t et une variance o?t. On peut montrer que l’espérance de 


2 
x(t) est égale à: 


Efx(+)] ss” 


et sa variance : 


vfx(t)] + LT - 1) 


Ces résultats sont d’une grande utilité pour calculer l'espérance 
d’un mouvement géométrique brownien : 


co co 


E [rte "ar = [re "dr = xo(r-0) 


0 0 


Les mouvements browniens géométriques on une grande utilité dans 
la modélisation des variables financières comme les prix des titres et 
les taux d'intérêt. 


Nous sommes maintenant en mesure d’aborder les processus 
browniens de retour vers la moyenne, dits encore processus Ornstein- 
Uhlenbeck. Ces processus sont très plausibles pour modéliser certaines 
variables financières qui ont tendance à retourner à long terme vers 
un niveau dit normal, tels les taux d’intérêt. L’équation différentielle 
générale de tels processus est la suivante : 


dx = 6(x-x)dt+odz 


q : vitesse de retour à la moyenne 
x: niveau normal de x (niveau auquel il retourne à long terme) 


Calculons l’espérance mathématique et la variance d’un processus de 
retour vers la moyenne. L’espérance de x. est égale à: 


Ex, ) = x+(x0 -x}e 
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Et sa variance : 


Vlu-r)e Lex) 


On se rend compte que la valeur espérée de x: tend vers x quand 


; (e] : 
t—o et que sa variance converge vers —. Si 6—>, alors 
26 
V(x.) — 0, c’est-à-dire que x, ne dévie jamais de x, même temporai- 
: 5 2 , 
rement. Par ailleurs, si 6 — 0, alors Vis) — Gt. x. suit dans ce cas 
un mouvement brownien simple à la limite. 


Broze et al. (1993)!? ont écrit une forme générale pour les pro- 
cessus browniens de taux d’intérêt qui synthétise l’ensemble des mo- 
dèles bien connus. Cette forme est la suivante: 


dr, = (a+ Br, )dt+o eu +0, Jaw., 


Le tableau 11.1, tiré de Broze et 41. (1993), montre comment cette 
forme générale intègre les modèles stochastiques de taux d’intérêt 
bien connus. 


Pour estimer les paramètres d’un processus brownien de retour 
vers la moyenne, nous devons discrétiser un tel processus. En fait, le 
processus continu est la valeur limite quand At — + du processus 
autorégressif suivant en temps discret : 


Xt Xe = x(1-e°)+{e" -1) Xr7 Et 


12. Broze, L., O. Scaillet et J.-M. Zakoïan (1993), « Testing for Continuous- Time 
Models of the Short-T'erm Interest Rate », Centre d'économie mathématique et 
d’économétrie, Université de Bruxelles. 
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TABLEAU 11.1 Modèles stochastiques de taux d’intérêt 


Modèle a B O0 01 y 
Merton (1973) 
dr = adt+o6,dW. 0 0 0 
Vasicek (1977) 
dr, =(a+Br, }dt+o,dW, 0 0 
Cox, Ingersoll et Ross (1985) 1 
dr, =(a+Br,)dt+o, r.dW, 0 À 
Dothan (1978) 
dr, = 6or.dW. 0 0 0 1 
Processus brownien géométrique 
dr, = Br.dt+opr.dW, 0 0 l 
Brennan et Schwartz (1980) 
dr, = (a+ Br, }dt+oor.dW, 0 l 
Cox, Ingersoll et Ross (1980) ; 
dr, = Gor: dw. 0 0 0 : 
Élasticité constante de la variance 
dr, =Br.dt+osr'dW. 0 0 
Chan, Karolyi, Longstaff et Sanders (1992) 
dr, =(a+Br, }dt+cor!dW, 0 


On peut donc estimer les paramètres d’un processus brownien de 
retour vers la moyenne en utilisant des données discrètes et en recou- 
rant à l’équation suivante : 


KR = bx ire 


t 


On peut récupérer facilement la structure initiale du mouvement 


: : à _ 6 st) _à 
brownien comme suit, en sachant que à = [1e | et b=e *-1. 
x est égal à l’expression suivante : 
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En procédant de la sorte, on trouve: 


et 


Il est facile de généraliser le processus brownien de retour vers la 
moyenne qui vient d’être exposé. Par exemple, on peut supposer que 
x. retourne vers x à long terme, mais que la variance du processus 
augmente avec x. Le processus brownien s’écrit dans ce cas: 


dx = e(x — x)dt +o6xdz 


Avant de poursuivre, nous ouvrons une parenthèse sur les procé- 
dures de discrétisation puisque l’on doit utiliser de telles procédures 
pour passer de la forme théorique d’une équation différentielle sto- 
chastique, généralement exprimée en temps continu et qui ne se prête 
pas comme telle à l’estimation empirique, à sa forme discrète, qui peut 


alors faire l’objet d’une estimation!?. 


Soit une équation de la forme suivante : 
dx(t)=adt+bdW., 


où W. désigne un processus de Wiener. Cette équation est exprimée 
en temps continu et on désire la discrétiser. Nous envisageons dans un 
premier temps la discrétisation de premier ordre, encore appelée 
discrétisation d’Euler. Ce type de discrétisation est qualifié de crude 
par Gouriéroux (1996), car elle n’est pas une forme de discrétisation 
exacte, forme que nous avons exposée antérieurement pour le proces- 
sus Ornstein-Uhlenbeck!*. La discrétisation d’Euler et la discrétisation 


13. Pour cette section, nous nous inspirons de : Jegadeesh, N. et B. Tuckman (2000), 
Advanced Fixed-Income Valuation Tools, John Wiley and Sons, New York, chap. 13. 

14. Voir à cet effet: Gouriéroux, C. et A. Montfort (1996), Siulation-Based Econo- 
metric Methods, Oxford University Press, Oxford, chap. 6. Ce chapitre est excellent 
en ce qui concerne estimation d'équations différentielles stochastiques à partir 
de données discrètes ou de conditions de moments. 
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exacte sont toutefois réconciliables, comme le lecteur sera à même de 
le constater!$. 


Pour ce qui concerne l’approximation d’Euler, l’idée de base est 
ici d’approximer une équation différentielle stochastique par une série 
de Taylor du premier degré. Pour ce faire, on divise l’intervalle [0 , T] 
en k sous-intervalles identiques de longueur h. L’approximation 
d’Euler de la fonction différentielle stochastique dx. est de: 


Au 4t =ah+bz,,, Vh 


où z-N(0, 1). Cette équation fournit une approximation pour la 
distribution de X,,,. L’approximation est plus précise quand h — 0. 


Comme nous l’avons mentionné auparavant, Broze et al. (1993) 
ont écrit une forme générale pour les mouvements browniens de taux 
d'intérêt, c’est-à-dire : 


dr, = (a+ Br, Jdt+o{r) +0, )aW, 


La discrétisation d’Euler de cette équation est la suivante : 


r(n) =} +(B, +17) +O0h AL 


t 


Y 
| +Oih [Ze 


où (Z:) est une séquence de variables gaussiennes indépendantes et 
où : 


cn = ah;Bx =Bh;60n = Go Vh;G1x =: 


Comme cela vient d’être mentionné, l’approximation d’Euler est 
une approximation de Taylor du premier degré aux variations obser- 
vées de x(t). Mais on peut obtenir une discrétisation plus précise et qui 
converge plus rapidement en recourant à une série de Taylor du 
second degré pour convertir en temps discret la variation de x(t). 
Cette procédure est appelée schème de Milstein. Elle s'applique lorsque 
les paramètres de l’équation différentielle dépendent de x et de t. Mais 
du fait des différences entre le calcul différentiel classique et le calcul 


15. En fait, la discrétisation exacte permet d’identifier les coefficients d’un processus 
brownien dont la version continue a été discrétisée par une approximation d’Euler 
pour des fins d’estimation. 
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différentiel stochastique, le schème de Milstein est beaucoup plus 
complexe que les schèmes de second degré généralement utilisés dans 
le cas des équations différentielles ordinaires ou non stochastiques. 
Les schèmes de Milstein débordent de l’objet de l’actuel Traité d’éco- 
nométrie financière. Pour plus de détails à ce sujet, le lecteur se référera 
à Jegadeesh et Tuckman (2000). 


Forts de ces développements, nous pouvons maintenant envi- 
sager l’estimation du modèle de Schaefer et Schwartz (SS), un modèle 
bifactoriel de taux d’intérêt. Les deux facteurs sont le taux à long 
terme et l’écart de rendement qui est la différence entre le taux à long 
terme et le taux à court terme. Ils utilisent l’écart de rendement plutôt 
que le taux à court terme, car il a été démontré empiriquement que 
l'écart de rendement est orthogonal au taux à long terme, ce qui 
facilite l'estimation. Le modèle SS s’écrit comme suit: 


ds =m(u-s)dt+"7ydz, 
dl=B,dt+oVldz, 
dz,dz, =0 


où s est l’écart de rendement, ! est le taux à long terme, m est le 
coefficient de retour vers la moyenne pour l’écart de rendement, p est 
la moyenne à long terme de l’écart de rendement, y est le coefficient 
de variance pour l’écart de rendement, s est le coefficient de variance 
pour le taux à long terme et b2 représente la tendance (drift) du taux 
à long terme. 


Envisageons d’abord l’estimation des deux équations du modèle 
de SS par la méthode des MCO. Considérons d’abord léquation de 


l'écart de rendement: 
ds, =m(u-—s,)dt+7ydw., 
La discrétisation d’Euler de cette équation est la suivante : 
St—Se1=m'(u"-y,,)+y"e",. =m'u"-m°y,; 
+y'e*.=c+m"*y,,+e**, 


or, la discrétisation exacte de ds. est la suivante : 


SES, = u(-e")+(e" -1) Sri +€, 
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On peut estimer cette dernière équation par les MCO de la façon 
suivante : 


St —S,1 =a+bs,,+€, 


t 
ce qui est un processus autorégressif d’ordre 1. En comparant la dis- 


crétisation d’Euler avec la discrétisation exacte, on identifie Les para- 
mètres de l’équation initiale comme suit: 


Pour estimer cette équation, nous avons utilisé des données men- 
suelles canadiennes s’étirant de 1949 à 1999. Le taux à court terme 
retenu est celui des bons du Trésor à trois mois et celui à long terme, 
le taux des obligations fédérales à dix ans. Nous avons d’abord estimé 
la première équation du modèle de SS selon la méthode des MCO. 
Les résultats apparaissent au tableau 11.2. 


Comme on peut le constater, les deux coefficients estimés à et b 
sont hautement significatifs, à en juger par le niveau des statistiques t 
et des p-values. L'écart de rendement à long terme est égal, en vertu 
de la discrétisation exacte à : 


u=- 


= 1,2486 


D>| &> 
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T'ABLEAU 11.2 


System: STRUC 


Estimation Method: Least Squares 


Date : 04/26/00 Time : 19:00 
Sample : 2 627 
Included observations : 626 


Total system (balanced) observations 1252 


Coefficient Std. Error  t-Statistic Prob. 
C(1) 0.043168 0.020411 2.114887 0.0346 
C(2) —0.034634 0.010405 -3.328516 0.0009 
C(3) 0.009544 0.007851 1.215625 0.2244 
Determinant residual covariance 0.000911 
Equation : D(SPR)= C(1)+C(2)*SPR(-1) 
Observations : 626 
R-squared 0.017445 Mean dependent var -0.002602 
Ajusted R-squared 0.015870 S.D. dependent var 0.380444 
S.E. of regression 0.377413 Sum squared resid 88.88281 
Durbin-Watson stat 1.274598 
Equation: D(L)/(L(-1)A(1/2) = C(3)/(L(-1)1(1/2)) 
Observations : 626 
R-squared 0.000951 Mean dependent var 0.003014 
Ajusted R-squared 0.000951 S.D. dependent var 0.080303 
S.E. of regression 0.080265 Sum squared resid 4.026560 


Durbin-Watson stat 1.324424 


Cette valeur pour l’écart de rendement sur longue période entre les 
obligations à dix ans et les bons du Trésor à 3 mois nous conforte dans 
nos attentes, quand on sait que le Canada devait maintenir tradition- 
nellement un écart de rendement substantiel pour encourager l’offre 
de fonds à long terme, nécessaire au financement des très nombreux 
projets à long terme, le Canada n’ayant pas encore atteint sa période 
de maturité industrielle comme les Etats-Unis. Ce raisonnement est 
corroboré par l’estimation du même coefficient par Jagadeesh et 
Tuckman (2000) qui ont obtenu, pour ce même coefficient, un résultat 
de -0,0171 pour les Etats-Unis, ce qui démontre la maturité indus- 


trielle avancée de ce pays. 


© 2001 — Presses de l’Université du Québec 
Édifice Le Delta I, 2875, boul. Laurier, bureau 450, Québec, Québec G1V 2M2 + Tél. : (418) 657-4399 - www.puq.ca 


Tiré : Traité d'économétrie financière, François-Éric Racicot et Raymond Théoret, ISBN 2-7605-1123-5 + D1123N 


Tous droits de reproduction, de traduction ou d’adaptation réservés 


La méthode des moments généralisés 345 


Passons maintenant à l’estimation de la vitesse d’ajustement de 
l'écart de rendement vers sa valeur de longue période. Toujours selon 
la discrétisation exacte, ce coefficient est égal à: 


m =-—log(1+b) =-log(1-0,0346) = 0,0352 


Nous prenons donc acte que la vitesse d’ajustement de l’écart de 
rendement est plutôt lente. Ce résultat était attendu, car on sait que 
cet écart peut dévier de sa moyenne pendant de longues périodes de 
temps au Canada. Ce résultat est appuyé par l’estimation de l’écart- 
type du mouvement brownien de l’écart de rendement canadien dont 
nous donnons maintenant le résultat. 


L’écart-type estimé de l’équation de l’écart de rendement est 
égal à: 


2log[1+ b) 210g(0,9654) 


=0,3774 : 
(0,9654) —1 


= 0,3840 


L’écart-type estimé de l’équation stochastique de l’écart de rende- 
ment, soit Ÿÿ, est donc relativement important, ce qui implique que 
l'écart de rendement peut dévier de sa valeur à long terme pendant 
une période de temps appréciable. 


Envisageons maintenant l’estimation de l’équation stochastique 
de la différentielle du taux à long terme du modèle SS, soit: 


di = udt +6 VIdW 


Pour être en mesure d’estimer cette équation différentielle stochas- 
tique, nous recourons à la discrétisation d’Euler. A la suite de cette 
discrétisation, cette dernière équation s'écrit: 


LL -l,,; =u+o.l,.€, 


Cette équation incorpore à l’évidence une forme d’hétéroscédasticité 
conditionnelle. Pour y pallier, nous pondérons chacune des observa- 


. À la suite de cette trans- 
t-1 


formation, l’équation différentielle de la variation du taux à long 
terme devient : 


tions des variables de l’équation par 
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1. 


res on ere 


où €,“ =06€,. Nous estimons cette équation en recourant dans un 
premier temps aux moindres carrés pondérés. 


Comme cela apparaît au tableau 11.2, la valeur estimée de u, soit 
la valeur à long terme ou drifi de la différentielle du taux à long terme, 
est égale à 0,0095 et n’est pas significative au seuil &=5%. Pour 
estimer le & de l’équation différentielle stochastique du taux à long 
terme, nous recourons au résultat suivant : 


V(e) = V(o.)=06V(e,)= 0° 


puisque €, - N(0, Le L’écart-type © qui apparaît dans l’équation dif- 
férentielle stochastique est donc égal à l’écart-type du terme d’erreur 
de la régression effectuée, qui est égal à: 0,080216. 


Comme le modèle de SS comporte deux équations, nous avons 
également estimé ses paramètres en recourant à la méthode des doubles 
moindres carrés. Les variables instrumentales retenues sont des déca- 
lages sur l’écart de rendement entre les obligations fédérales à long 
terme américaines et le taux de rendement des bons du Trésor amé- 
ricain. Cet écart semblait en effet bien jouer son rôle de variable 
instrumentale, à savoir une corrélation élevée avec les variables endo- 
gènes du modèle et une orthogonalité avec les termes d’erreur des 
équations du modèle. 


Les résultats de cette estimation apparaissent au tableau 11.3. 


En refaisant les calculs précédents pour identifier les paramètres 
des équations du modèle de SS, le lecteur sera à même de constater 
que les résultats de cette estimation ne diffèrent pas sensiblement de 
ceux obtenus par la méthode des moindres carrés pondérés. 


16. À remarquer que, pour ce qui concerne l’équation différentielle stochastique du 
taux à long terme, les coefficients dont les valeurs sont données dans le texte 
correspondent à la discrétisation d’Euler et non à la discrétisation exacte. 
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T'ABLEAU 11.3 


System: STRUC 


Estimation Method: Two-Stage Least Squares 


Date : 04/26/00 Time : 19:00 
Sample : 4 627 
Included observations : 624 


Total system (balanced) observations 1248 


Coefficient Std. Error  t-Statistic Prob. 
C(1) 0.077456 0.020874 3.710549 0.0002 
C(2) 0.061026 0.010851  -5.623929 0.0000 
C(3) 0.008725 0.007933 1.099815 0.2716 
Determinant residual covariance 0.000924 
Equation : D(SPR)= C(1)+C(2)*SPR(-1) 
Observations : 624 
R-squared 0.007758 Mean dependent var —-0.002979 
Ajusted R-squared 0.006163 S.D. dependent var 0.380993 
S.E. of regression 0.379817 Sum squared resid 89.73033 
Durbin-Watson stat 1.230532 
Equation: D(L)/(L(-1)A(1/2) = C(3)/(L(-1)1(1/2)) 
Observations : 624 
R-squared 0.000788 Mean dependent var 0.002804 
Ajusted R-squared 0.000788 S.D. dependent var 0.080341 
S.E. of regression 0.080309 Sum squared resid 4.018078 
Durbin-Watson stat 1.826180 


Nous en arrivons maintenant à l’objet principal de cette section, 
soit l’estimation des paramètres du modèle de SS par la méthode du 
GMM/7. Comme nous l’avons vu auparavant, cette méthode exige 
l'estimation d’une matrice de pondération des moments, appelons-la 


17. Les conditions d’orthogonalité ou moments du modèle de SS sont les suivantes : 
Efe.Z.: ] =; Ef(e = v)2.:| =0; Efe:Z. | =0; Ef(er - 021), | =0; 


Ef(e.e. = poy1)Z.: | = 0, où Z+ désigne la matrice des variables instrumen- 


tales décalées d’une période; &,, le terme d’erreur de la régression de l’écart de 
rendement ; &, le terme d’erreur de la régression du taux à long terme et p, la 


corrélation entre &, et #1. 
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Q:1, où Q est la matrice variance-covariance des moments. Le logiciel 
EViews 3.1 offre plusieurs options pour estimer ©. 


i) 


La matrice de White, encore appelée HCCM (Hetero- 
skedasticity Consistent Covariance Matrix). Nous avons déjà 
frayé avec cette matrice. Rappelons ici le principe de sa 
construction dans le contexte de la méthode du GMM. 


Soit les moments suivants, qui sont en fait des conditions 
d’orthogonalité entre le vecteur des variables instrumentales 
Z retenu pour l’estimation et les résidus de la régression : 


m(0,y,X,z) = Z'u(6,y,X) = 0 


où 6 est le vecteur des paramètres à estimer. Par exemple, pour 
l’estimateur des MCO), la condition d’orthogonalité est: 


X'(y-XB)=0 


Pour des raisons d’identification des paramètres, il faut que 
le nombre de variables instrumentales soit au moins égal au 
nombre de paramètres à estimer. 


Si la matrice de White est retenue pour calculer les moments, 
EViews calcule cette matrice comme suit: 


n 1 L 
Q=—____V Z'uu/Z 
ri t tt t 


où u. est le vecteur des résidus estimés!8. 


La matrice dite HAC (heteroskedastic and autocorrelation consis- 
tent covariance matrix). Pour les aspects techniques de la cons- 
truction de cette matrice, nous reportons le lecteur au manuel 
de référence du logiciel EViews. Cette construction repose 
entre autres sur le recours à des kernels de façon à ce que la 
matrice HAC soit semi-définie positive. 


L’estimation des paramètres du modèle de SS par la méthode 
du GMM apparaît au tableau 11.4. 


18. Pour un exposé plus élaboré de la matrice de White dans le contexte de la 
méthode du maximum de vraisemblance, on consultera: Hendry, D.F. (1995), 
Dynamic Econometrics : Advanced Texts in Econometrics, Oxford University Press, 
Oxford, chap. 10, section 10.10. 
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Estimation Method: Generalized Method of Moments 
Date : 04/26/00 Time : 19:00 


Sample : 4 627 


Included observations : 624 
Total system (balanced) observations 1248 


No prewhitening 
Bandwidth : Fixed 
Kernel: Bartett 


(6) 


Convergence achieved after: 4 weight matrices. 5 total coef iterations 


Coefficient Std. Error  t-Statistic Prob. 
C(1) 0.076434 0.028534 2.678673 0.0075 
C(2) —0.054968 0.015209  -8.614102 0.0003 
C(3) 0.015096 0.007348 2.054310 0.0402 
Determinant residual covariance 0.000921 
J-statistic 0.013064 
Equation : D(SPR)= C(1)+C(2)*SPR(-1) 
Observations : 624 
R-squared 0.011489 Mean dependent var -0.002979 
Ajusted R-squared 0.009899 S.D. dependent var 0.380993 
S.E. of regression 0.379102 Sum squared resid 89.39297 
Durbin-Watson stat 1.242401 
Equation: D(L)/(L(-1)A(1/2) = C(3)/(L(-1)1(1/2)) 
Observations : 624 
R-squared —0.000229 Mean dependent var 0.002804 
Ajusted R-squared —0.000229 S.D. dependent var 0.080341 
S.E. of regression 0.080350 Sum squared resid 4.022167 
Durbin-Watson stat 1.324358 


On remarquera que les trois coefficients estimés sont maintenant 
significatifs, ce qui n’était pas le cas pour les deux autres méthodes 
d’estimation. Les résultats de cette estimation se rapprochent de ceux 
de la méthode des doubles moindres carrés. 
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L’estimation des paramètres des équations différentielles stochas- 
tiques trouve un très grand nombre d’applications dans le domaine de 
la théorie des produits dérivés. Par exemple, les scénarios de taux 
d'intérêt, qui entrent dans la détermination des prix des produits 
dérivés, font appel à de tels paramètres. Il faut également recourir à de 
tels paramètres pour évaluer les prix des obligations qui entrent dans 
l'évaluation des options sur taux d’intérêt. Dans le modèle de SS, le 
prix d’une obligation se calcule comme suit, une fois les paramètres du 
modèle stochastique de taux d’intérêt estimés : 


P(s,1,t) = X(s,t)Y(1,t) 


X(s,1) à eL-2(1)] 
y) =? 
D-+) (HA) 
cl ) 2 y/D° 
T) = 
m? 4m 
D(:) _ 1—-e 
m 
Y(1,1) : el$ t)-IB(<)| 
2 
($+a)T/2 
A(:) , 20e 


où 7 désigne l’échéance de l’obligation et $ est défini implicitement 
par l’équation suivante : 


es RL 
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Par simulation, Jegadeesh et Tuckman (2000) ont obtenu une valeur 
de 0,7 pour \, soit le prix du risque. 


Test sur les restrictions de suridentification 


Un modèle GMM est suridentifié quand le nombre des conditions 
d’orthogonalité est supérieur au nombre de paramètres à estimer. 
Hansen (1982) a suggéré un test pour vérifier si les moments 
échantillonnaux ne sont pas significativement différents de 0. Si les 
conditions d’orthogonalité de la population sont toutes vraies, alors : 


FTe(eoirr)] WVTeloirx)]#22(r) 


où g(.) désigne le vecteur des r conditions d’orthogonalité. Dans cette 
équation, la fonction g(.) est évaluée à la vraie valeur qo. Par ailleurs, 


l’estimateur GMM, désigné par @.,, est typiquement une solution au 
système suivant : 


T 


dg(6;yr) x (6 ]- 
( 


où a désigne le nombre de paramètres à estimer. Comme le système 
est suridentifié, r >a, on pourrait penser que l’expression antérieure 
ayant trait à la distribution asymptotique des moments pondérés vaut 
également lorsque le tout est évalué à 6... Mais cela est faux puisque 


le vecteur g(6r 5Y r) contient (r — a) variables aléatoires non dégéné- 


rées!”. Évaluée à 6, la distribution asymptotique des moments est 
plutôt de: 


[Te(êr 5YT JR W|VTe(êr 5YT Jr (x — a) 


19. Pour la preuve de ce résultat, voir : Hamilton, J.D. (1994), op. cit. 
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Le calcul de la statistique du test est trivial puisqu’elle est égale au 
produit de T et de la valeur de la fonction critère GMM évaluée à 8+. 
Ce test sert à vérifier si le modèle est bien spécifié ou non. Mais selon 
Hamilton (1994), il faut complémenter ce test car il peut facilement 
échouer. 


Les hypothèses de ce test sont les suivantes : 


HO: les conditions d’orthogonalité ne sont pas significativement 
différentes de 0. 


H1 : les conditions d’orthogonalité sont significativement diffé- 
rentes de 0, auquel cas le modèle est mal spécifié. 


Si la statistique x? calculée excède la 42 au seuil retenu, alors on 
rejette HO en faveur de H1. 
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TABLEAU A.1 Répartition de la loi normale 


centrée réduite 
Les chiffres figurant dans le tableau donnent le rapport 
entre la surface en dessous de la courbe, comprise entre 
0 et z et la surface totale se trouvant en dessous de 0 z 
cette courbe. Si z est négatif, on procède par symétrie. 


z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 


0,0 ,0000 ,0040 ,0080 ,0120 ,0160 ,0199 ,0239 ,0279 ,0319 ,0359 
0,1 ,0398 ,0438 ,0478 ,0517 ,0557 ,0596 ,0636 ,0675 ,0714 ,0753 
0,2 ,0793 ,0832 ,0871 ,0910 ,0948 ,0987 ,1026 ,1064 ,1103 ,1141 
0,3 ,1179 ,1217 ,1255 ,1293 ,1331 ,1368 ,1406 ,1443 ,1480 ,1517 
04 ,1554 ,1591 ,1628 ,1664 ,1700 ,1736 ,1772 ,1808 ,1844 ,1879 


0,5 ,1915 ,1950 ,1985 ,2019 ,2054 ,2088 ,2123 ,2157 ,2190 ,2224 
0,6 ,2257 ,2291 ,2324 ,2357 ,2389 ,2422 ,2454 ,2486 ,2517 ,2549 
0,7 ,2580 ,2611 ,2642 ,2673 ,2703 ,2734 ,2764 ,2794 ,2823 ,2852 
0,8 ,2881 ,2910 ,2939 ,2967 ,2995 ,3023 ,3051 ,3078 ,3106 ,3133 
0,9 ,3159 ,3186 ,3212 ,3238 ,3264 ,3289 ,3315 ,3340 ,3365 ,3389 


3413 ,3438 ,3461 ,3485 ,3508 ,3531 ,3554 ,3577 ,3599 ,3621 
3643 ,3665 ,3686 ,3708 ,3729 ,3749 ,3770 ,3790 ,3810 ,3830 
3849 ,3869 ,3888 ,3907 ,3925 ,3944 ,3962 ,3980 ,3997 ,4015 
4032 ,4049 ,4066 ,4082 ,4099 4115 ,4131 ,4147 ,4162 ,4177 
4192 ,4207 ,4222 ,4236 ,4251 ,4265 ,4279 ,4292 ,4306 ,4319 


4332 ,4345 4357 ,4370 ,4382 ,4394 ,4406 ,4418 ,4429 ,4441 
4452 ,4463 ,4474 ,4484 ,4495 4505 ,4515 ,4525 ,4535 ,4545 
4554 ,4564 ,4573 ,4582 ,4591 ,4599 ,4608 ,4616 ,4625 ,4633 
4641 ,4649 ,4656 ,4664 ,4671 ,4678 ,4686 ,4693 ,4699 ,4706 
4713 ,4719 ,4726 ,4732 ,4738 ,4744 ,4750 ,4756 ,4761 ,4767 


4772 ,4778 ,4783 ,4788 ,4793 ,4798 ,4803 ,4808 ,4812 ,4817 
4821 ,4826 ,4830 ,4834 ,4838 ,4842 ,4846 ,4850 ,4854 ,4857 
4861 ,4864 ,4868 ,4871 ,4875 ,4878 ,4881 ,4884 ,4887 ,4890 
4893 ,3896 ,4898 ,4901 ,4904 ,4906 ,4909 ,4911 ,4913 ,4916 
4918 ,4920 ,4922 ,4925 ,4027 ,4929 4931 ,4932 ,4934 ,4936 


4938 ,4940 ,4941 ,4943 ,4945 4946 ,4948 ,4949 4951 ,4952 
4953 ,4955 ,4956 ,4957 ,4959 4960 ,4961 ,4962 ,4963 ,4964 
4965 ,4966 ,4967 ,4968 ,4969 ,4970 ,4971 ,4972 ,4973 ,4974 
4974 ,4975 ,4976 ,4977 ,4977 ,4978 ,4979 ,4979 ,4980 ,4981 
4981 ,4982 ,4982 ,4983 ,4984 ,4084 ,4985 ,4985 ,4986 ,4986 


4987 ,4987 ,4987 ,4988 ,4988 ,4989 ,4989 ,4989 ,4990 ,4990 


me er Ha 


© oo RUES boot Bow Ee 


Les] NN D D D NH D ND ND D NH ei bi hi ai 


Tiré de P.G. Hoel, Introduction to Mathematical Statistics, 4th edition, Wiley, 1971, avec la 
permission de l’éditeur. 
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TABLEAU A2 Répartition du # 
de Student 


La première colonne donne le nombre des 

degrés de liberté (v). Les autres colonnes 

correspondent à la probabilité P que + 

dépasse les valeurs données. Pour des # L 


négatifs, on procède par symétrie. 0 u 

v P 0,10 0,05 0,025 0,1 0,005 
1 3,078 6,314 12,706 31,821 63,657 
2 1,886 2,920 4,303 6,965 9,925 
3 1,638 2,353 3,182 4,541 5,841 
4 1,533 2,132 2,776 3,747 4,604 
5 1,476 2,015 2,571 3,365 4,032 
6 1,440 1,943 2,447 3,143 3,707 
7 1,415 1,895 2,365 2,998 3,499 
8 1,397 1,860 2,306 2,896 3,399 
9 1,383 1,833 2,262 2,821 3,250 
10 1,372 1,812 2008 2,764 3,169 
11 1,363 1,796 2,201 2,718 3,106 
12 1,356 1,782 2,179 2,681 3,055 
13 1,350 1,771 2,160 2,650 3,012 
14 1,345 1,761 2,145 2,624 2,977 
15 1,341 1,753 2,131 2,602 2,947 
16 1,337 1,746 2,120 2,583 2,921 
17 1,333 1,740 2,110 2,567 2,898 
18 1,330 1,734 2,101 Pr 2,878 
19 1,328 1,729 2,093 2,539 2,861 
20 1,325 1,725 2,086 2,528 2,845 
pal 1,323 151 2,080 2,518 2,831 
22 321 1717 2,074 2,508 2,819 
23 1,319 1,714 2,069 2,500 2,807 
24 1,318 1,711 2,064 2,492 2,797 
29 1,316 1,708 2,060 2,485 2,787 
26 1,315 1,706 2,056 2,479 2,779 
27 1,314 1,703 2,052 2,473 2,771 
28 1,313 1,701 2,048 2,467 2,763 
29 1,311 1,699 2,045 2,462 2,756 
30 1,310 1,697 2,042 2,457 2,750 
40 1,303 1,684 2,021 2,423 2,704 
60 1,296 1,671 2,000 2,390 2,660 
120 1,289 1,658 1,980 2,358 2,617 
œ 1,282 1,645 1,960 2,326 2,576 


Tiré de P.G. Hoel, Introduction to Mathematical Statistics, 4th edition, Wiley, 1971, avec la 
permission de l’éditeur. 
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TABLEAU A3 Répartition du x? 


Pour un nombre de degrés de liberté supérieur 
à 30, l'expression suit approximativement 


une loi normale centrée réduite 


(a étant le nombre de degrés de liberté). 0 x 
Degrés de liberté 0,99 0,98 0,95 0,90 0,80 0,70 

il 0,000157 0,000628 0,00393 0,0158 0,0642 0,148 

2 0,0201  0,0404 0,103 0,211 0,446 0,713 

3 0,115 0,185 0,352 0,584 1,005 1,424 

4 0,297 0,429 0,711 1,064 1,649 2,195 

5 0,554 0,752 1,145 1,610 2,343 3,000 

6 0,872 1,134 1,635 2,204 3,070 3,828 

7 1,239 1,564 2,167 2,833 3,822 4,671 

8 1,646 2,032 2,733 3,490 4,594 5,527 

D 2,088 2,532 3,325 4,168 5,380 6,393 
10 2,558 3,059 3,940 4,865 6,179 7,267 
11 3,053 3,609 4,575 5,578 6,989 8,148 
12 3,571 4,178 5,226 6,304 7,807 9,034 
13 4,107 4,765 5,892 7,042 8,634 9,926 
14 4,660 5,368 6,571 7,790 9,467 10,821 
15 5,229 5,985 7,261 8,547 10,307 11,721 
16 5,812 6,614 7,962 9,312 11,152 12,624 
17 6,408 7,255 8,672 10,085 12,002 13,531 
18 7,015 7,906 9,390 10,865 12,857 14,440 
19 7,633 8,567 10,117 11,651 13,716 15,352 
20 8,260 9,237 10,851 12,443 14,578 16,266 
21 8,897 9,915 11,591 13,240 15,445 17,182 
23 9,542 10,600 12,338 14,041 16,314 18,101 
. 10,196 11,293 13,091 14,848 17,187 19,021 
24 10,856 11,992 13,848 15,659 18,062 19,943 
25 11,524 12,697 14,611 16,473 18,940 20,867 
26 12,198 13,409 15,379 17,292 19,820 21,792 
27 12,879 14,125 16,151 18,114 20,703 22,719 
28 13,565 14,847 16,928 18,939 21,588 23,647 
29 14,256 15,574 17,708 19,768 22,475 24,577 
30 14,953 16,306 18,493 20,599 23,364 25,508 


Tiré de R.A. Fisher, Sratistical Methods for Research Workers, 14th ed., New York, Macmillan 


Publishing Co., Inc. 
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TABLEAU A3 (suite) 

Degrés de liberté 0,50 0,30 0,20 0,10 0,05 0,02 0,01 
1 0,455 1,074 1,642 2,706 3,841 5,412 6,635 
2 1,386 2,408 3,219 4,605 5,991 7,824 9,210 
3 2,366 3,665 4,642 6,251 7,815 9,837 11,341 
4 3,357 4,878 5,989 7,779 9,488 11,668 13,277 
5 4,351 6,064 7,289 9,236 11,070 13,388 15,086 
6 5,348 7,231 8,558 10,645 12,592 15,033 16,812 
7 6,346 8,383 9,803 12,017 14,067 16,622 18,475 
8 7,344 9,524 11,030 13,362 15,507 18,168 20,090 
9 8,343 10,656 12,242 14,684 16,919 19,679 21,666 
10 9,342 11,781 13,442 15,987 18,307 21,161 23,209 
11 10,341 12,899 14,631 17,275 19,675 22,618 24,725 
12 11,340 14,011 15,812 18,549 21,026 24,054 26,217 
13 12,340 15,119 16,985 19,812 22,362 25,472 27,688 
14 13,339 16,222 18,151 21,064 23,685 26,873 29,141 
15 14,339 17,322 19,311 22,307 24,996 28,259 30,578 
16 15,338 18,418 20,465 23,542 26,296 29,633 32,000 
L7 16,338 19,511 21,615 24,769 27,587 30,995 33,409 
18 17,338 20,601 22,760 25,989 28,869 32,346 34,805 
19 18,338 21,689 23,900 27,204 30,144 33,687 36,191 
20 19,337 22,775 25,038 28,412 31,410 35,020 37,566 
21 20,337 23,858 26,171 29,615 32,671 36,343 38,932 
29 21,337 24,939 27,301 30,813 33,924 37,659 40,289 
23 22,337 26,018 28,429 32,007 35,172 38,968 41,638 
24 23,337 27,096 29,553 33,196 36,415 40,270 42,980 
25 24,337 28,172 30,675 34,382 37,652 41,566 44,314 
26 25,336 29,246 31,795 35,563 38,885 42,856 45,642 
5} 26,336 30,319 32,912 36,741 40,113 44,140 46,963 
28 27,336 31,391 34,027 37,916 41,337 45,419 48,278 
29 28,336 32,461 35,139 39,087 42,557 46,693 49,588 
30 29,336 33,530 36,250 40,256 43,773 47,962 50,892 
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SLT SLT ST SSI CI 007 907 SIT HT CET pro ST OT S9T SLT PSC pc LOE pos PE LE Jr CIS Hz 
8pT OST CST OST BST ENT OT CUT OUT IST SST CT B6T IOT SOC OT 91T ETT IST pe BST CSC ICS 90+ bp 
SLT O8T S8T IT HOT GOT 807 LIT VTT SET OT ST p9T OT LLT 98T 96T OTE QUE 6PE OSE 6+ SIS LIL 
OPT IST PET LST OT HOT BUT ELT SLT LST 681 POI 667 OT 907 ITT LIT pc CET pre 66 EST CcT£ L0+ th 
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EST DST LST OT ET LOT ILT OT OST SST LOT JET LOT SOC 607 PT GT 9TT SET OPT LT S8T STE OI 8£ 
LST O6T HôT O0C HOT CIT LIT OCT SET Ent ST PT LT SLT ST préc Poe SE SEE BCE 68€ Sr TS 6€L 
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TABLEAU A.5 Statistique de Durbin et Watson au seuil de 5 % 


K'-1 K'=-2 K'=3 K'-4 K'=-5 
n di dy di dy di dy di dy di dy 
6 0,610 1,400 
7 0,700 1,356 0,467 1,896 
8 0,763 1,332 0,559 1,777 0,368 2,287 
9 0,824 1,320 0,629 1,699 0,455 2,128 0,296 2,588 = - 
10 0,879 1,320 0,697 1,641 0,525 2,016 0,376 2,414 0,243 2,822 
11 0,927 1,324 0,758 1,604 0,595 1,928 0,444 2,283 0,316 2,645 
12 0,971 1,331 0,812 1,579 0,658 1,864 0,512 2,177 0,379 2,506 
13 1,010 1,340 0,861 1,562 0,715 1,816 0,574 2,094 0,445 2,390 
14 1,045 1,350 0,905 1,551 0,767 1,779 0,632 2,030 0,505 2,296 
15 1,077 1,361 0,946 1,543 0,814 1,750 0,685 1,977 0,562 2,220 
16 1,106 1,371 0,982 1,539 0,857 1,728 0,734 1,935 0,615 2,157 
17 1,133 1,381 1,015 1,536 0,897 1,710 0,779 1,900 0,664 2,104 
18 1,158 1,391 1,046 1,535 0,933 1,696 0,820 1,872 0,710 2,060 
19 1,180 1,401 1,074 1,536 0,967 1,685 0,859 1,848 0,752 2,023 
20 1,201 1,411 1,100 1,537 0,998 1,676 0,894 1,828 0,792 1,991 
21 1,221 1,420 1,125 1,538 1,026 1,669 0,927 1,812 0,829 1,964 
22 1,239 1,429 1,147 1,541 1,053 1,664 0,958 1,797 0,863 1,940 
23 1,257 1,437 1,168 1,543 1,078 1,660 0,986 1,785 0,895 1,920 
24 1,273 1,446 1,188 1,546 1,101 1,656 1,013 1,775 0,925 1,902 
25 1,288 1,454 1,206 1,550 1,123 1,654 1,038 1,767 0,953 1,886 
26 1,302 1,461 1,224 1,553 1,143 1,652 1,062 1,759 0,979 1,873 
27 1,316 1,469 1,240 1,556 1,162 1,651 1,084 1,753 1,004 1,861 
28 1,328 1,476 1,255 1,560 1,181 1,650 1,104 1,747 1,028 1,850 
29 1,341 1,483 1,270 1,563 1,198 1,650 1,124 1,743 1,050 1,841 
30 1,352 1,489 1,284 1,567 1,214 1,650 1,143 1,739 1,071 1,833 
31 1,363 1,496 1,297 1,570 1,229 1,650 1,160 1,735 1,090 1,825 
32 1,373 1,502 1,309 1,574 1,244 1,650 1,177 1,732 1,109 1,819 
33 1,383 1,508 1,321 1,577 1,258 1,651 1,193 1,730 1,127 1,813 
34 1,393 1,514 1,333 1,580 1,271 1,652 1,208 1,728 1,144 1,808 
35 1,402 1,519 1,343 1,584 1,283 1,653 1,222 1,726 1,160 1,803 
36 1,411 1,525 1,354 1,587 1,295 1,654 1,236 1,724 1,175 1,799 
37 1,419 1,530 1,364 1,590 1,307 1,655 1,249 1,723 1,190 1,795 
38 1,427 1,535 1,373 1,594 1,318 1,656 1,261 1,722 1,204 1,792 
39 1,435 1,540 1,382 1,597 1,328 1,658 1,273 1,722 1,218 1,789 
40 1,442 1,544 1,391 1,600 1,338 1,659 1,285 1,721 1,230 1,786 
45 1,475 1,566 1,430 1,615 1,383 1,666 1,336 1,720 1,287 1,776 
50 1,503 1,585 1,462 1,628 1,421 1,674 1,378 1,721 1,335 1,771 
55 1,528 1,601 1,490 1,641 1,452 1,681 1,414 1,724 1,374 1,768 
60 1,549 1,616 1,514 1,652 1,480 1,689 1,444 1,727 1,408 1,767 
65 1,567 1,629 1,536 1,662 1,503 1,696 1,471 1,731 1,438 1,767 
70 1,583 1,641 1,554 1,672 1,525 1,703 1,494 1,735 1,464 1,768 
75 1,598 1,652 1,571 1,680 1,543 1,709 1,515 1,739 1,487 1,770 
80 1,611 1,662 1,586 1,688 1,560 1,715 1,534 1,743 1,507 1,772 
85 1,624 1,671 1,600 1,696 1,575 1,721 1,550 1,747 1,525 1,774 
90 1,635 1,679 1,612 1,703 1,589 1,726 1,566 1,751 1,542 1,776 
95 1,645 1,687 1,623 1,709 1,602 1,732 1,579 1,755 1,557 1,778 
100 1,654 1,694 1,634 1,715 1,613 1,736 1,592 1,758 1,571 1,780 
150 1,720 1,746 1,706 1,760 1,693 1,774 1,679 1,788 1,665 1,802 
200 1,758 1,778 1,748 1,789 1,738 1,799 1,728 1,810 1,718 1,820 


= nombre de régresseurs (hors constante). 
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K'-6 K':7 K'=-8 K'=-9 K'=10 
n di dy di dy di dy di dy di dy 
6 
7 
8 
9 
10 
11 0,203 3,005 
12 0,268 2,832 0,171 3,149 
13 0,328 2,692 0,230 2,985 0,147 3,266 
14 0,389 2,572 0,286 2,848 0,200 3,111 0,127 3,360 = = 
15 0,447 2,472 0,343 2,727 0,251 2,979 0,175 3,216 0,111 3,438 
16 0,502 2,388 0,398 2,624 0,304 2,860 0,222 3,090 0,155 3,304 
17 0,554 2,318 0,451 2,537 0,356 2,757 0,272 2,975 0,198 3,184 
18 0,603 2,257 0,502 2,461 0,407 2,667 0,321 2,873 0,244 3,073 
19 0,649 2,206 0,459 2,396 0,456 2,589 0,369 2,783 0,290 2,974 
20 0,692 2,162 0,595 2,339 0,502 2,521 0,416 2,704 0,336 2,885 
21 0,732 2,124 0,637 2,290 0,547 2,460 0,461 2,633 0,380 2,806 
22 0,769 2,090 0,677 2,246 0,588 2,407 0,504 2,571 0,424 2,734 
23 0,804 2,061 0,715 2,208 0,628 2,360 0,545 2,514 0,465 2,670 
24 0,837 2,035 0,751 2,174 0,666 2,318 0,584 2,464 0,506 2,613 
25 0,868 2,012 0,784 2,144 0,702 2,280 0,621 2,419 0,544 2,560 
26 0,897 1,992 0,816 2,117 0,735 2,246 0,657 2,379 0,581 2,513 
27 0,925 1,974 0,845 2,093 0,767 2,216 0,691 2,342 0,616 2,470 
28 0,951 1,958 0,874 2,071 0,798 2,188 0,723 2,309 0,650 2,431 
29 0,975 1,944 0,900 2,052 0,826 2,164 0,753 2,278 0,682 2,396 
30 0,998 1,931 0,926 2,034 0,854 2,141 0,782 2,251 0,712 2,363 
31 1,020 1,920 0,950 2,018 0,879 2,120 0,810 2,226 0,741 2,333 
32 1,041 1,909 0,972 2,004 0,904 2,102 0,836 2,203 0,769 2,306 
33 1,061 1,900 0,994 1,991 0,927 2,085 0,861 2,181 0,795 2,281 
34 1,080 1,891 1,015 1,979 0,950 2,069 0,885 2,162 0,821 2,257 
35 1,097 1,884 1,034 1,967 0,971 2,054 0,908 2,144 0,845 2,236 
36 1,114 1,877 1,053 1,957 0,991 2,041 0,930 2,127 0,868 2,216 
37 1,131 1,870 1,071 1,948 1,011 2,029 0,951 2,112 0,891 2,198 
38 1,146 1,864 1,088 1,939 1,029 2,017 0,970 2,098 0,912 2,180 
39 1,161 1,859 1,104 1,932 1,047 2,007 0,990 2,085 0,932 2,164 
40 1,175 1,854 1,120 1,924 1,064 1,997 1,008 2,072 0,945 2,149 
45 1,238 1,835 1,189 1,895 1,139 1,958 1,089 2,002 1,038 2,088 
50 1,291 1,822 1,246 1,875 1,201 1,930 1,156 1,986 1,110 2,044 
55 1,334 1,814 1,294 1,861 1,253 1,909 1,212 1,959 1,170 2,010 
60 1,372 1,808 1,335 1,850 1,298 1,894 1,260 1,939 1,222 1,984 
, 65 1,404 1,805 1,370 1,843 1,336 1,882 1,301 1,923 1,266 1,964 
70 1,433 1,802 1,401 1,837 1,369 1,873 1,337 1,910 1,305 1,948 
75 1,458 1,801 1,428 1,834 1,399 1,867 1,369 1,901 1,339 1,935 
80 1,480 1,801 1,453 1,831 1,425 1,861 1,397 1,893 1,369 1,925 
85 1,500 1,801 1,474 1,829 1,448 1,857 1,422 1,886 1,396 1,916 
90 1,518 1,801 1,494 1,827 1,469 1,854 1,445 1,881 1,420 1,909 
95 1,535 1,802 1,512 1,827 1,489 1,852 1,465 1,877 1,442 1,903 
100 1,550 1,803 1,528 1,826 1,506 1,850 1,484 1,874 1,462 1,898 
150 1,651 1,817 1,637 1,832 1,622 1,847 1,608 1,862 1,594 1,877 
200 1,707 1,831 1,697 1,841 1,686 1,852 1,675 1,863 1,665 1,874 
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TABLEAU AS (suite) 


K'=-11 K' = 12 K'=-13 K'=-14 K'=15 
n di dy di dy di dy di dy di dy 
16 0,098 3,503 
17 0,138 3,378 0,087 3,557 
18 0,177 3,265 0,123 3,441 0,078 3,603 
19 0,220 3,159 0,160 3,335 0,111 3,496 0,070 3,642 = = 
20 0,263 3,063 0,200 3,234 0,145 3,395 0,100 3,542 0,063 3,676 
21 0,307 2,976 0,240 3,141 0,182 3,300 0,132 3,448 0,091 3,583 
22 0,349 2,897 0,281 3,057 0,220 3,211 0,166 3,358 0,120 3,495 
23 0,391 2,826 0,322 2,979 0,259 3,128 0,202 3,272 0,153 3,409 
24 0,431 2,761 0,362 2,908 0,297 3,053 0,239 3,193 0,186 3,327 
25 0,470 2,702 0,400 2,844 0,335 2,983 0,275 3,119 0,221 3,251 
26 0,508 2,649 0,438 2,784 0,373 2,919 0,312 3,051 0,256 3,179 
27 0,544 2,600 0,475 2,730 0,409 2,859 0,348 2,987 0,291 3,112 
28 0,578 2,555 0,510 2,680 0,445 2,805 0,383 2,928 0,325 3,050 
29 0,612 2,515 0,544 2,634 0,479 2,755 0,418 2,874 0,359 2,992 
30 0,643 2,477 0,577 2,592 0,512 2,708 0,451 2,823 0,392 2,937 
31 0,674 2,443 0,608 2,553 0,545 2,665 0,484 2,776 0,425 2,887 
32 0,703 2,411 0,638 2,517 0,576 2,625 0,515 2,733 0,457 2,840 
33 0,731 2,382 0,668 2,484 0,606 2,588 0,546 2,692 0,488 2,796 
34 0,758 2,355 0,695 2,454 0,634 2,554 0,575 2,654 0,518 2,754 
35 0,783 2,330 0,722 2,425 0,662 2,521 0,604 2,619 0,547 2,716 
36 0,808 2,306 0,748 2,398 0,689 2,492 0,631 2,586 0,575 2,680 
37 0,831 2,285 0,772 2,374 0,714 2,464 0,657 2,555 0,602 2,646 
38 0,854 2,265 0,796 2,351 0,739 2,438 0,683 2,526 0,628 2,614 
39 0,875 2,246 0,819 2,329 0,763 2,413 0,707 2,499 0,653 2,585 
40 0,896 2,228 0,840 2,309 0,785 2,391 0,731 2,473 0,678 2,557 
45 0,988 2,156 0,938 2,225 0,887 2,296 0,838 2,367 0,788 2,439 
50 1,064 2,103 1,019 2,163 0,973 2,225 0,927 2,287 0,882 2,350 
55 1,129 2,062 1,087 2,116 1,045 2,170 1,003 2,225 0,961 2,281 
60 1,184 2,031 1,145 2,079 1,106 2,127 1,068 2,177 1,029 2,227 
65 1,231 2,006 1,195 2,049 1,160 2,093 1,124 2,138 1,088 2,183 
70 1,272 1,986 1,239 2,026 1,206 2,066 1,172 2,106 1,139 2,148 
75 1,308 1,970 1,277 2,006 1,247 2,043 1,215 2,080 1,184 2,118 
80 1,340 1,957 1,311 1,991 1,283 2,024 1,253 2,059 1,224 2,093 
85 1,369 1,946 1,342 1,977 1,315 2,009 1,287 2,040 1,260 2,073 
90 1,395 1,937 1,369 1,966 1,344 1,995 1,318 2,025 1,292 2,055 
95 1,418 1,929 1,394 1,956 1,370 1,984 1,345 2,012 1,321 2,040 
100 1,434 1,923 1,416 1,948 1,393 1,974 1,371 2,000 1,347 2,026 
150 1,579 1,892 1,564 1,908 1,550 1,924 1,535 1,940 1,519 1,956 
200 1,654 1,885 1,643 1,896 1,632 1,908 1,621 1,919 1,610 1,931 


© 2001 — Presses de l’Université du Québec 
Édifice Le Delta I, 2875, boul. Laurier, bureau 450, Québec, Québec G1V 2M2 * Tél. : (418) 657-4399 - www.puq.ca 


Tiré : Traité d'économétrie financière, François-Éric Racicot et Raymond Théoret, ISBN 2-7605-1123-5 + D1123N 


Tous droits de reproduction, de traduction ou d’adaptation réservés 


TABLEAU AS (suite) 


Annexe — Tables statistiques 


365 


K' = 16 K'=-17 K'=18 K'=19 K' = 20 

n di dy di dy di dy di dy di dy 
16 

17 

18 

19 

20 

21 0,058 3,705 

22 0,083 3,619 0,052 3,731 

23 0,110 3,535 0,076 3,650 0,048 3,753 

24 0,141 3,454 0,101 3,572 0,070 3,678 0,044 3,773 = = 
25 0,172 3,376 0,130 3,494 0,094 3,604 0,065 3,702 0,041 3,790 
26 0,205 3,303 0,160 3,420 0,120 3,531 0,087 3,632 0,060 3,724 
27 0,238 3,233 0,191 3,349 0,149 3,460 0,112 3,563 0,081 3,658 
28 0,271 3,168 0,222 3,283 0,178 3,392 0,138 3,495 0,104 3,592 
29 0,305 3,107 0,254 3,219 0,208 3,327 0,166 3,431 0,129 3,528 
30 0,337 3,050 0,286 3,160 0,238 3,266 0,195 3,368 0,156 3,465 
31 0,370 2,996 0,317 3,103 0,269 3,208 0,224 3,309 0,183 3,406 
32 0,401 2,946 0,349 3,050 0,299 3,153 0,253 3,252 O,211 3,348 
33 0,432 2,899 0,379 3,000 0,329 3,100 0,283 3,198 0,239 3,293 
34 0,462 2,854 0,409 2,954 0,359 3,051 0,312 3,147 0,267 3,240 
35 0,492 2,813 0,439 2,910 0,388 3,005 0,340 3,099 0,295 3,190 
36 0,520 2,774 0,467 2,868 0,417 2,961 0,369 3,053 0,323 3,142 
37 0,548 2,738 0,495 2,829 0,445 2,920 0,397 3,009 0,351 3,097 
38 0,575 2,703 0,522 2,792 0,472 2,880 0,424 2,968 0,378 3,054 
39 0,600 2,671 0,549 2,757 0,499 2,843 0,451 2,929 0,404 3,013 
40 0,626 2,641 0,575 2,724 0,525 2,808 0,477 2,892 0,430 2,974 
45 0,740 2,512 0,692 2,586 0,644 2,659 0,598 2,733 0,553 2,807 
50 0,836 2,414 0,792 2,479 0,747 2,544 0,703 2,610 0,660 2,675 
55 0,919 2,338 0,877 2,396 0,836 2,454 0,795 2,512 0,754 2,571 
60 0,990 2,278 0,951 2,330 0,913 2,382 0,874 2,434 0,836 2,487 
65 1,052 2,229 1,016 2,276 0,980 2,323 0,944 2,371 0,908 2,419 
70 1,105 2,189 1,072 2,232 1,038 2,275 1,005 2,318 0,971 2,362 
75 1,153 2,156 1,121 2,195 1,090 2,235 1,058 2,275 1,027 2,315 
80 1,195 2,129 1,165 2,165 1,136 2,201 1,106 2,238 1,076 2,275 
85 1,232 2,105 1,205 2,139 1,177 2,172 1,149 2,206 1,121 2,241 
90 1,266 2,085 1,240 2,116 1,213 2,148 1,187 2,179 1,160 2,211 
95 1,296 2,068 1,271 2,097 1,247 2,126 1,222 2,156 1,197 2,186 
100 1,324 2,053 1,301 2,080 1,277 2,108 1,253 2,135 1,229 2,164 
150 1,504 1,972 1,489 1,989 1,474 2,006 1,458 2,023 1,443 2,040 
200 1,599 1,943 1,588 1,955 1,576 1,967 1,565 1,979 1,554 1,991 
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A bootstrap, 193 
borne Cramer-Rao, 104 


acceptation bancaire, 90, 269 bnéblne 182 216 


algorithme BHHH, 305 


algorithme c 

d'estimation non linéaire, 256 

d'optimisation, 149 calcul stochastique, 187 

de Newton, 150 CAPM, 91, 164, 234, 287 

de Newton-Raphson, 149 caps, 159 

itératif Cochrane-Orcut, 222 carrés résiduels contraints, 113 
analyse factorielle, 242 classe des estimateurs linéaires, 102 
approximation CML, 288 

de Taylor, 151, 332 coefficient 

parcimonieuse, 282 d’autocorrélation, 218 
APT (Arbitrage Pricing Theory), 228 de corrélation de Pearson, 83 
arbitrage, 228 de détermination, 82 
arbre binômial, 24 de Kendall, 37 
ARCH-M, 95 de kurtosis, 276 
autocorrélation, 215 de retour vers la moyenne, 342 

en présence d’une variable de variance, 342 

dépendante retardée, 225 R? ajusté, 83 

partielle, 234 R? ajusté de Theil, 103 
autocovariance, 216, 230 cofacteur, 124 
autorégression, 263 cointégration, 265,268 

combinaisons rendement-risque 
B optimales, 135 
conditions 

BAX, 90, 269 


de moments, 328 
d’orthogonalité, 329, 332, 348 

contraintes linéaires sur les 
paramètres, 108 


benchmark, 138 
bêta, 92, 293 
biais, 9 
de simultanéité, 183 
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contrat 
à terme, 90, 272 
au comptant, 272 
convergence, 169 
en distribution, 171 
en moyenne quadratique, 170 
en probabilité, 170 
quasi sûre, 171 
corrélation 
de Pearson, 31 
de Spearman, 35 
non paramétrique, 196 
spatiale, 215 
couche cachée, 255 
coupe instantanée, 242, 275 
courbe de Phillips, 87 
couverture d’un portefeuille de 
titres, 270 
couverture 
naïve, 133 
optimale d’un bilan bancaire, 129 
covariance, 29 
entre les rendements de deux 
portefeuilles, 126 
critère 
d’Akaike, 246 
d’information d’Akaike, 156 
de sélection de Schwarz, 246 
d’information de Schwartz, 156 


D 


data-fitting, 229 
days of the week effect (DOW), 161 
degrés de liberté, 62 
demande de contrats au 
comptant, 112 
demande inverse, 183 
densité 
jointe, 38 
marginale, 38 
densités conditionnelles, 40 
dérivation matricielle, 99, 131 
déterminant, 121 
detrending, 261 
Dickey-Fuller augmenté, 265 


différenciation, 261 
discrétisation 
d’'Eule, 340 
d’Euler, 188, 342, 345 
d’une équation différentielle 
stochastique, 335 
de Milstein, 192 
de premier ordre, 340 
d’un processus stochastique, 338 
exacte, 340 
distance euclédienne, 45 


distribution 
x, 62 
de Poisson, 25 
F, 67 
lognormale, 145 
uniforme, 33, 195 


diversification de portefeuille, 294 
doubles moindres carrés non 

linéaires, 331 
doubles moindres carrés, 179 
drift, 191, 335 
écart quadratique moyen, 46 
écart-type, 10 
effets asymétriques, 283 
efficience des marchés financiers, 263 
efficients, 75 


E 


élasticité-prix d’une option, 86 
endogénéité, 179, 182 
ensemble de Borel, 6 
ensemble orthonormal, 235 
équation 

caractéristique, 181 

de différence, 260 

différentielle stochastique 

discrétisée, 185 

normales, 72, 101 
équilibre des marchés financiers, 292 
erreur 

de prévision., 82 

de suivi, 129, 138 

de type I, 66 

de type II, 66 
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erreurs 
de prévision groupées 
(clustered), 276 
de spécification, 143 
espace des états de la nature, 229 
espace fondamental, 229 
espérance, 29 
conditionnelle et prévision à court 
terme, 277 
conditionnelle, 259, 276 
du rendement du titre i, 241 
mathématique, 20 
non conditionnelle et prévision à 
long terme, 277 
non conditionnelle, 259 
non conditionnelle, 274,277 
risque-neutre, 192 
estimateur 
BLUE, 46, 102, 219 
convergent, 183 
de distance minimale, 327 
des doubles moindres carrés, 331 
des MCO, 71 
des moindres carrés indirects, 330 
kernel du bêta, 199 
super-convergent, 268 
semi-paramétriques, 334 
EViews, 15 
excès de leptokurticité, 283 
expansion de Taylor, 188 


F 
facteurs, 236 
FGLS, 224 


filtre linéaire, 237 
finance corporative, 335 
fonction 
d’activation logistique, 256 
d’autocorrélation partielle, 234 
d’autocorrélation, 232 
d’autocovariance, 232 
de lagrange, 136,139 
de répartition, 19 
de transition, 254,257 
de vraisemblance, 50 


Index 369 
logistique, 255,256 
scédastique, 70 
forme 
linéaire d’hétéroscédasticité, 206 
quadratique, 99, 127 
formes fonctionnelles, 83 
frontière efficiente, 129,135 
G-H 
GARCH(1,1), 282 
GARCH, 257 


GARCH-M multivarié, 304 
générateur de variables aléatoires, 193 
GMM, 327 

gradient, 153 

bétéroscédasticité, 201 

homoscédasticité, 70, 98, 203, 275 


impact des jours de la semaine sur les 
indices boursiers, 227 
indépendance, 38 
indice de référence, 138 
instruments, 330 
intégrale 
de Riemann, 29, 186 
stochastique, 187 
intégration, 243 
intégré, 242 
intervalle de confiance, 61 
Intervalles de confiance, 106 
intgrated GARCH, 281 
inverse 
d’une matrice, 123 
généralisé de Moore-Penrose, 180 


J-K 


jacobien, 49 
Jarque et Bera, 16 
jeu non biaisé (fair game, 302 
kernel, 196, 348 
gaussien, 28 
Kurtosis, 14 
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L 


lemme d’Ito, 187, 336 
leptokurticité, 276 
leverage effect, 283 
location model, 327 


logiciel 
Eviews, 154, 207, 228, 235, 250, 
348 
Excell, 189 
Mathematica, 193 
RATS, 279 
loi 


binômiale, 22 

lognormale, 188 

normale centrée réduite, 28 
normale multivariée, 42 
normale ou gaussienne, 27 


M 


MAE (mean absolute error), 249 
marche 
aléatoire avec tendance 
stochastique, 258 
aléatoire avec tendance, 260 
aléatoire, 243, 258, 263 
aléatoire, 263 
martingale, 259 
matrice 
HAC (beteroskedastic and 
autocorrelation consistent covariance 
matrix), 348 
adjointe, 123 
conformable, 117 
d’information, 125 
de corrélation de Pearson, 179 
de pondération des moments, 347 
de transformation, 103 
de White, 207, 332, 348 
définie positive, 101 
diagonale de transformation, 205 
diagonale, 119 
génératrice des résidus, 120 
HCCM, 332 
idempotente, 77, 120 
orthogonale, 235 
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partitionnée, 124 
semi-définie positive, 348 
singulière, 239 
symétrique, 77, 119 
transposée, 118 
triangulaire, 122 
variance-covariance d’un 
portefeuille, 126 
variance-covariance, 42, 75 
maximum de vraisemblance, 47, 104 
médiane, 9 
méthode 
classique des moments, 325 
de Box et Jenkins, 243 
de Gauss-Newton, 151 
de Prais et Winsten, 222 
des doubles moindres 
carrés, 346,349 
des MCO en deux étapes, 245 
des moindres carrés ordinaires, 44, 
346 
des moments généralisés, 
327 
d'estimation GARCH-M, 287 
STAR, 254 
mineur, 124 
minimum chi-square, 327 
mode, 9 
modèle 
ANN (artificial neural network), 255 
ANN, 256 


98, 179, 


ARCH(1), 277 
ARCH(q), 280 
ARCH, 276 

ARCH-M, 282 


ARIMA (p,d,q), 242 

ARMA(1,1), 241 

ARMA(p,q), 242 

bifactoriel de taux d’intérêt, 342 

binômial de Cox, Ross et 
Rubinstein, 23 

classique linéaire général, 98 

contraint, 112 

de Cox, Ingersoll et Ross, 192 

de régression non linéaire 
multivarié, 153 

de Schaefer et Schwartz, 342 
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EGARCH(p,q), 283 
EGARCH, 283 
ESTAR, 255 
GARCH(1,1), 281, 284 
général GARCH(p,q), 281 
IGARCH(L,1), 281, 286 
LSTAR, 255 
STAR, 254 
stochastique bifactoriel de taux 
d'intérêt de Schaefer et 
Schwartz, 335 
TAR, 255 
TARCH, 284 
contraint et non contraint, 174 
moindres 
carrés généralisés, 
carrés non linéaires, 
245 
carrés pondérés, 204 
carrés quasi généralisés, 205 
moments 
d’une population, 326 
échantillonnaux, 326 
mouvement 
brownien avec drift, 335 
brownien généralisé, 188 
brownien géométrique, 186 
brownien géométrique, 336 
browniens de taux d’intérêt, 341 


205,211 
149, 218, 223, 


moyenne 
géométrique, 146 
mobile, 231 


multicollinéarité, 179 


N-O 


nombre optimal de contrats à 

terme, 133 
notation Moody’s, 250 
opérateur de retard L, 
options, 335 

d'achat, 86 

de vente asiatique, 186 

de vente, 87 

sur taux d'intérêt, 350 
ordre d'intégration, 242 
oubles moindres carrés, 183 


230, 275 
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P 


paramètre 

de lissage, 197 

de palier (threshold parameter), 255 
portefeuille 

d’arbitrage, 236 

efficient, 296 


position 
long, 129 
short, 129 


positions au comptant et à terme, 90 
prévision, 79, 114 
à court terme d’une variable, 274 
à long terme d’une variable, 274 
à partir du modèle GARCH, 284 
de court terme, 259 
en présence d’autocorrélation, 226 
MMSE, 247 
à l’aide de modèles statistiques de 
processus de marche 
aléatoire, 258 
prime de risque, 95 
du marché, 240 
d’un facteur, 242 
principe de l'arbitrage, 236 
prix 
à terme, 269 
au comptant, 269 
d'exercice, 186 
d'équilibre du titre j dans le contexte 
du modèle du CAPM, 299 
du risque, 240, 288, 306 
Probabilités conditionnelles, 40 
problème d’optimisation, 139 
procédure 
itérative Cochrane-Orcutt, 219 
de discrétisation, 340 


processus 
ARCH(8), 282 
ARMA(p, q) 281 


autorégressif d'ordre 1, 343 

autorégressif d’ordre p, 216 

browniens de retour vers la 
moyenne, 337 

browniens de taux d'intérêt, 338 

d’Ito, 187 

d'Ito, 336 
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processus 
de marche aléatoire avec 
tendance, 258 
de moyenne mobile MA(q), 236 
de Wiener, 186, 187, 336, 340 
intégré d’ordre 1, 242 


Ornstein-Uhlenbeck, 337, 340 
stochastique non 
stationnaire, 242, 258 


stochastique, 229 
produit Kronecker, 118 
progression géométrique, 231 
pseudo-inverse, 180 
puissance, 66 
put asiatique, 189 
p-value, 66 


Q-R 


quantité de risque, 288 
racine unitaire, 262, 263 
ratio 

de couverture optimal, 90 

de couverture, 272 

de la dette à l’équité, 283 

de vraisemblance, 173 
règle 

de l'Hôpital, 148 

de la chaîne, 291 
régresseur, 69 
régression, 69 


artificielle, 210, 287 
auxiliaire où artificielle, 209 
auxiliaire, 180, 270 


fallacieuse (spurious regression), 263 
multiple, 98 
non linéaire, 149 
non paramétrique, 196 
rendement, 93 
excédentaire, 240, 288 
réseaux de neurones, 254 
résidus stationnaires, 268 


retrait de la tendance (detrending), 261 


ridge regression, 181 
risque 
diversifiable, 294 
non diversifiable, 294 


non systématique, 236, 295 
systématique, 293,295 
RMSE (root mean square error), 249 


S 


schème de Milstein, 341 
série 
de Taylor du premier degré, 341 
de Taylor du second degré, 341 
DS, 267 
en coupe instantanée, 201 
en différence stationnaire, 262 
en tendance stationnaire, 262 
stationnarisée, 244 
temporelle non linéaire, 253 
temporelle, 201 
TS, 267 
cointégrées, 265 
simulation de Monte Carlo, 185 
skewness, 11 
SML, 91,165 
solution non triviale, 239 
stationnarité, 216, 230 
de second ordre, 230 
faible, 230 
statistique 
h de Durbin, 225 
Q, 245 
TR?, 287 
U de Theil, 249 
structure à terme des taux 
d'intérêt, 153 
surparamétrisation (overfitting), 245 
système 
d'équations exactement 
identifié, 330 
d'équations linéaires 
homogènes, 239 
suridentifié, 330, 351 


T 


taux à terme, 231 

taux au comptant, 230 

taux sans risque, 95 

technique de lissage des données de 
Nadaraya-Watson, 197 
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technique dite de l’équivalent- 
certain, 300 
test 

Bera-Jarque, 79 

Box-Cox, 146 

d’un changement structurel, 161 

de Breusch-Pagan, 209 

de Chen, Roll et Ross, 243 

de Chow (predictive), 165 

de Chow, 163 

de cointégration d’ Engle et 
Granger, 268 

de Dickey-Fuller, 265 

de Goldfeld et Quandt, 208 

de Kolmogorov-Smirnov, 17 

de Perron, 265 

de racine unitaire, 265 

de Wald, 175 

de White, 211 

Durbin-Watson, 224 

F, 67, 106 

J, 157 

LM d’Engle, 286 

LM, 176 

LR, 173 

Phillips-Perron, 267 

score, 176 

sur les restrictions de 
suridentification, 351 


t, 61 

tests 
bilatéraux, 106 
exacts, 104 


LM, LRet Wald, 105 

non paramétriques, 105 

unilatéraux, 106 
théorème 

central limite, 41, 78 

de Gauss-Markov, 46, 102 

de l'arbitrage, 233 

de Pythagore, 295 

de Wold, 237 
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théorie 
asymptotique, 169 
de Markowitz, 294 
des produits dérivés, 350 
tirage avec remise, 195 
TR?, 211 
trace 
d’un scalaire, 121 
d’une matrice, 120 
tracking error, 129, 138 
transformation 
de Box-Cox, 147 
en quasi-différences, 218 
jacobienne, 47, 278 
trend 
d’une série chronologique, 260 
stochastique, 259, 264 
temporel linéaire, 261 
temporel polynomial, 261 


V 


valeur 
critique, 63 
propre, 180 

VaR, 185, 195 

variable 
aléatoire, 6 
auxiliaire, 159, 227 
de transition, 254 
dichotomique, 115 
gaussienne, 341 
instrumentale, 178, 346 
déterministes, 6 
instrumentales, 329 
variance, 21,29 
conditionnelle, 95, 201, 275 
du tracking-error, 139 
échantillonnale, 9 
non conditionnelle, 275 
caractéristique, 181 
GARCH-M multivariée du 

CAPM, 307 
vecteur orthonormal, 241 
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